CN116524420A

CN116524420A - 一种交通场景下的关键目标检测方法及系统

Info

Publication number: CN116524420A
Application number: CN202310803998.8A
Authority: CN
Inventors: 王中元; 华捷; 胡珊; 张羽飞; 常军; 李明
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-08-01
Anticipated expiration: 2043-07-03
Also published as: CN116524420B

Abstract

本发明公开了一种交通场景下的关键目标检测方法及系统，首先获取交通视频，并提取视频图像高维特征，提取高维度的多尺度特征；然后对多尺度特征进行处理，提取显著性多尺度特征；对提取的显著性多尺度特征进行处理，实现边框回归与多个子类别预测，得到关键目标的定位信息与类别信息；接着约束分类结果减少误检；最后将定位信息与约束后的分类结果进行结合，消除冗余检测框，得到最终的关键目标定位信息与类别信息。本发明能够在复杂多变的陆上或海上交通场景下快速并准确的检测出行驶或静止状态下的关键目标，实现交通场景下的关键目标的智能监控或用于无人驾驶系统中的环境感知任务。

Description

一种交通场景下的关键目标检测方法及系统

技术领域

本发明属于计算机视觉技术领域，涉及一种交通场景关键目标检测方法及系统，具体涉及一种基于分类任务再解耦的交通场景关键目标检测方法及系统。

背景技术

基于道路交通场景下关键目标（行人、车辆、车道、交通标识、障碍物等）检测技术的无人驾驶辅助系统，能够有效降低人为因素引发交通事故的概率。对海上交通场景下的关键目标（船舶、航标、灯塔、岛礁等）检测识别以确保航运和海洋工程安全的需求日益紧迫。

然而，从交通场景中获取的图像由于其全天候、全天时要求，往往质量较低，外部环境和流量对象本身也增加了这种复杂性。陆上和海上交通场景的背景复杂多变，且存在雾霾、暴雨等恶劣天气的影响。交通场景图像还容易受到光照条件的影响，极大的影响了交通场景下的关键目标检测方法的准确性。同时，交通场景下的不同目标实例尺度差异较大，且存在遮挡等情况，这对检测方法的多尺度检测能力有较高的要求。此外，交通场景下的部分关键目标类间特征差异较小，这可能导致误检。如何降低环境因素的影响，减少误检，提高检测算法的鲁棒性，已经成为交通场景下的关键目标检测领域中亟需解决的难题。

交通场景下的关键目标检测技术旨在对交通场景中的目标如汽车、行人、骑手、船舶等关键目标进行定位与分类。早期的传统目标检测方法如ACF等，往往只能实现单类别的目标检测任务，且检测精度较低。近年来，随着人工智能（AI）技术的快速发展，涌现一大批基于深度学习的目标检测算法。基于深度学习的方法通过深度卷积神经网络学习目标特征，直接预测目标的类别与定位信息。然而目前的研究主要聚焦于目标检测中分类任务与边框回归任务之间的相关性解耦问题上。目前主流的目标检测方法如FCOS和Dyhead等，通常将分类和边框回归任务解耦，分别构建各自的特征提取分支。这些方法虽然一定程度上提高了目标检测的精度，但是他们很少利用分类任务再解耦的潜力，且应用于交通场景下的关键目标检测任务时，上述难题仍然存在。

发明内容

为了解决上述技术问题，本发明结合基于深度学习目标检测算法，提供了一种交通场景下的关键目标检测方法及系统。

本发明的方法所采用的技术方案是：一种交通场景下的关键目标检测方法，包括以下步骤：

步骤1：获取交通视频，并提取视频图像高维特征；

步骤2：提取高维度的多尺度特征；

步骤3：对多尺度特征进行处理，提取显著性多尺度特征；

步骤4：对提取的显著性多尺度特征进行处理，实现边框回归与多个子类别预测，得到关键目标的定位信息与类别信息，

步骤5：约束分类结果减少误检；

步骤6：将步骤4中得到的定位信息与步骤5中得到的约束后的分类结果进行结合，消除冗余检测框，得到最终的关键目标定位信息与类别信息。

本发明的系统所采用的技术方案是：一种交通场景下的关键目标检测系统，包括以下模块：

第一模块，用于获取交通视频，并提取视频图像高维特征；

第二模块，用于提取高维度的多尺度特征；

第三模块，用于对多尺度特征进行处理，提取显著性多尺度特征；

第四模块，用于对提取的显著性多尺度特征进行处理，实现边框回归与多个子类别预测，得到关键目标的定位信息与类别信息，

第五模块，用于约束分类结果减少误检；

第六模块，用于将第四模块中得到的定位信息与第五模块中得到的约束后的分类结果进行结合，消除冗余检测框，得到最终的关键目标定位信息与类别信息。

与现有的检测方法相比，本发明具有以下的优点与积极效果：

（1）本发明使用显著特征提取模块对多尺度特征进行显著性增强，有效降低极端天气等环境因素对目标检测器性能的影响。

（2）本发明提出基于分类再解耦的检测头，能够有效的提取类间差异更大的分类特征，有利于降低关键目标的分类任务难度。

（3）本发明构建了互斥抑制模块，有利于减少类别之间的误检。

附图说明

图1：本发明实施例的采用的网络整体结构图；

图2：本发明实施例的多尺度特征提取器网络结构图；

图3：本发明实施例的显著性特征提取模块络结构图；

图4：本发明实施例的边框回归器与多个子分类器结构图；

图5：本发明实施例的互斥抑制模块结构图；

图6：本发明实施例的实验结果示例。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种交通场景下的关键目标检测方法，包括以下步骤：

步骤1：获取交通视频，并提取视频图像高维特征；

步骤2：提取高维度的多尺度特征；

请见图2，本实施例中，利用多尺度特征提取器，得到多尺度表达能力更强的多尺度特征；

本实施例的多尺度特征提取器包括骨干网络与多尺度特征融合网络，其中骨干网络为ResNet50，用于提取视频图像高维特征；

本实施例的多尺度特征融合网络，用于提取多尺度表达能力更强的多尺度特征；首先将C₅作为P₅层特征，并使用卷积核大小为3的卷积层对P₅层特征进行两次下采样，得到/>；然后最近邻上采样方法对P₅层特征进行上采样，并将上采样结果与C₄层特征相加，得到P₄层特征：

；

式中表示最近邻上采样方法；随后最近邻上采样方法对P₄层特征进行上采样，并将上采样结果与C₃层特征相加，得到P₃层特征：

；

则相较于原图的缩放尺寸为/>；

最后，为了降低特征下采样过程中的损失，使用卷积核大小为3的卷积层对C₃层特征提取，并用于增强多尺度特征：

；

其中，表示卷积核大小为3的卷积层；/>为多尺度表达能力更强的多尺度特征，相较于原图的缩放尺寸同样为/>。

步骤3：对多尺度特征进行处理，提取显著性多尺度特征；

请见图3，本实施例中，利用显著性特征提取模块，得到显著性多尺度特征；

本实施例的显著性特征提取模块，由尺度注意力函数、空间注意力函数和任务注意力函数串联组成；对于输入的多尺度特征，其中N表示多尺度特征的尺度数，H和W表示输入特征的长度和宽度，合并为S维度，C表示特征的通道数，则多尺度特征表示为/>，使用显著性特征增强模块对多尺度特征进行处理，提取多尺度表达能力更强的显著性特征：

；

其中，分别为C，S，N维度上的注意力函数，分别表示任务注意力函数，空间注意力函数，尺度注意力函数。

请见图4，本实施例中，通过边框回归器与多个子分类器得到关键目标的定位与类别信息，实现边框回归与多个子类别预测；

本实施例的边框回归器由两个显著特征增强模块与一个卷积核大小为3的卷积层级联组成，其中显著特征增强模块用于提取特征，卷积层用于获取预测结果；

本实施例的每个子分类器由两个显著特征增强模块与一个卷积核大小为3的卷积层级联组成，其中显著特征增强模块用于提取特征，卷积层用于获取预测结果；每个子分类器负责c个类别的分类任务。

本实施例得到待检测目标的边框信息，其中，H和W分别表示定位信息的长度和宽度，其乘积为预测框的数量;

每个特征像素点的预测结果为：

；

其中，分别表示特征图中像素点到目标检测框边界的距离，最后得到矩形边框回归结果为：

；

其中，为特征像素点的坐标，/>为矩形边框左上角坐标，为矩形右下角坐标。

步骤5：约束分类结果减少误检；

请见图5，本实施例中，通过互斥抑制模块约束分类结果减少误检；

本实施例的互斥抑制模块用于约束各子分类器预测结果，包括抑制强度计算层和拼接层；本实施例的抑制强度计算层，用于计算三个子分类器预测结果对其他分类器的抑制强度并进行抑制；本实施例的拼接层，用于对所有抑制后的子分类器预测结果进行拼接操作，得到所有的类别信息。

本实施例中，设置互斥性阈值，计算第i个子分类器的输出/>对其他子分类器的互斥性强度：

；

对K个子分类器的预测结果进行再次约束，设置互斥性阈值，计算第i个子分类器的输出/>对其他子分类器的互斥性强度：

；

其中，H，W和c分别表示每个子分类器输出的长度、宽度以及预测的类别数，表示该子分类器对其他子分类器的抑制强度；计算所有子分类器的抑制强度后，对分类结果进行约束：

；

其中K表示子分类器的数量，在本实例中其值为3。

步骤6：将步骤4中得到的定位信息与步骤5中得到的约束后的分类结果进行结合，通过非极大值抑制方法，消除冗余检测框，得到最终的关键目标定位信息与类别信息；

本实施例采用非极大值抑制方法，消除冗余检测框，其步骤如下；

（1）将所有的检测框按照类别划分，并剔除背景类；

（2）根据每个类别的检测框的分类分数进行排序；

（3）选择分类分数最高的检测框作为最终输出的检测框；

（4）计算该类别检测框的面积以及分类分数最高的检测框与其他检测框之间的交并比；

（5）将所有交并比小于设定的阈值的检测框删除；

（6）重复步骤（3）~（5），直到该类别检测框全部被选择或删除，完成一个类别目标的检测框选取；

（7）重复步骤（2）~（6），直到所有类别的非极大值抑制处理完成。

本实施例的本实施例的边框回归器与子分类器，均是训练好的边框回归器与子分类器；

训练过程中，各子分类器单独输出对应类别的分类结果：

；

其中表示子分类器的输出，K表示子分类器的数量，在本实例中其值为3，/>表示所有分类器的输出；

训练过程中，边框回归器的损失函数为：

；

其中，和/>分别表示真实的包围框和预测得到的包围框；

子分类器的损失函数为：

；

其中，用于调节正负样本对子分类器学习过程中的重要程度，/>用于提高子分类器对困难样本的挖掘能力；当y=1时，表示该样本为正样本，当y=0时，则表示该样本为负样本，p表示该样本被预测为某一类前景目标的概率；

因此训练过程中的总损失为：

；

其中，K表示子分类器的数量，在本实例中其值为3。

基于本发明实现的算法对交通场景下的关键目标检测的效果，图6给出了部分示例，在陆上交通场景与水上交通场景中，本发明均能准确的完成关键目标的检测任务。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种交通场景下的关键目标检测方法，其特征在于，包括以下步骤：

步骤1：获取交通视频，并提取视频图像高维特征；

步骤2：提取高维度的多尺度特征；

步骤3：对多尺度特征进行处理，提取显著性多尺度特征；

步骤5：约束分类结果减少误检；

2.根据权利要求1所述的交通场景下的关键目标检测方法，其特征在于：步骤2中，利用多尺度特征提取器，得到多尺度表达能力更强的多尺度特征；

所述多尺度特征提取器包括骨干网络与多尺度特征融合网络，其中骨干网络为ResNet50，用于提取视频图像高维特征；

所述多尺度特征融合网络，用于提取多尺度表达能力更强的多尺度特征；首先将C₅作为P₅层特征，并使用卷积核大小为3的卷积层对P₅层特征进行两次下采样，得到/>；然后最近邻上采样方法对P₅层特征进行上采样，并将上采样结果与C₄层特征相加，得到P₄层特征：

；

则相较于原图的缩放尺寸为/>；

；

3.根据权利要求1所述的交通场景下的关键目标检测方法，其特征在于：步骤3中，利用显著性特征提取模块，得到显著性多尺度特征；

所述显著性特征提取模块，由尺度注意力函数、空间注意力函数和任务注意力函数串联组成；对于输入的多尺度特征，其中N表示多尺度特征的尺度数，H和W表示输入特征的长度和宽度，合并为S维度，C表示特征的通道数，则多尺度特征表示为，使用显著性特征增强模块对多尺度特征进行处理，提取多尺度表达能力更强的显著性特征：

；

4.根据权利要求1所述的交通场景下的关键目标检测方法，其特征在于：步骤4中，通过边框回归器与若干个子分类器得到关键目标的定位与类别信息，实现边框回归与多个子类别预测；

所述边框回归器由两个显著特征增强模块与一个卷积核大小为3的卷积层级联组成，其中显著特征增强模块用于提取特征，卷积层用于获取预测结果；

所述子分类器由两个显著特征增强模块与一个卷积核大小为3的卷积层级联组成，其中显著特征增强模块用于提取特征，卷积层用于获取预测结果；每个子分类器负责c个类别的分类任务。

5.根据权利要求4所述的交通场景下的关键目标检测方法，其特征在于：步骤5中，所述边框回归器与子分类器，均是训练好的边框回归器与子分类器；

训练过程中，各子分类器单独输出对应类别的分类结果：

；

其中表示子分类器的输出，K表示子分类器的数量，/>表示所有分类器的输出；

训练过程中，边框回归器的损失函数为：

；

其中，和/>分别表示真实的包围框和预测得到的包围框；

子分类器的损失函数为：

；

因此训练过程中的总损失为：

；

其中，K表示子分类器的数量。

6.根据权利要求1所述的交通场景下的关键目标检测方法，其特征在于：步骤5中，通过互斥抑制模块约束分类结果减少误检；

所述互斥抑制模块用于约束各子分类器预测结果，包括抑制强度计算层和拼接层；所述抑制强度计算层，用于计算三个子分类器预测结果对其他分类器的抑制强度并进行抑制；所述拼接层，用于对所有抑制后的子分类器预测结果进行拼接操作，得到所有的类别信息。

7.根据权利要求1所述的交通场景下的关键目标检测方法，其特征在于：步骤6中，采用非极大值抑制方法，消除冗余检测框，其步骤如下；

（1）将所有的检测框按照类别划分，并剔除背景类；

（2）根据每个类别的检测框的分类分数进行排序；

（3）选择分类分数最高的检测框作为最终输出的检测框；

（5）将所有交并比小于设定的阈值的检测框删除；

8.根据权利要求1-7任意一项所述的交通场景下的关键目标检测方法，其特征在于：步骤4中，得到待检测目标的边框信息，其中，H和W分别表示定位信息的长度和宽度，其乘积为预测框的数量;

每个特征像素点的预测结果为：

；

其中，为特征像素点的坐标，/>为矩形边框左上角坐标，/>为矩形右下角坐标。

9.根据权利要求1-7任意一项所述的交通场景下的关键目标检测方法，其特征在于：步骤5中，设置互斥性阈值，计算第i个子分类器的输出/>对其他子分类器的互斥性强度：

；

其中K表示子分类器的数量。

10.一种交通场景下的关键目标检测系统，其特征在于，包括以下模块：

第一模块，用于获取交通视频，并提取视频图像高维特征；

第二模块，用于提取高维度的多尺度特征；

第五模块，用于约束分类结果减少误检；