CN116912798B

CN116912798B - 基于跨模态噪声感知的自动驾驶事件相机目标检测方法

Info

Publication number: CN116912798B
Application number: CN202311181388.5A
Authority: CN
Inventors: 梁栋; 胡刚; 黄圣君; 陈松灿
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-19
Anticipated expiration: 2043-09-14
Also published as: CN116912798A

Abstract

本发明提供基于跨模态噪声感知的自动驾驶事件相机目标检测方法，属于计算机视觉技术领域，包括以下步骤：获取目标的RGB图像和DVS事件序列；商用目标检测网络对RGB图像进行标注，并将事件序列编码为事件图像；RGB图像通过几何变换后，标签迁移到事件图像作为事件图像标签；筛选高质量RGB图像加入事件图像训练集组成跨模态训练集进行跨模态标签噪声感知训练，标签噪声感知训练在训练过程中动态感知噪声标签，并对噪声标签进行修正后继续使用。本发明针对事件相机目标检测中训练集标签噪声问题出了解决方法，此方法也可迁移到事件序列的分类、实例分割等任务，为如何方便地利用事件序列数据提出了新的框架。

Description

基于跨模态噪声感知的自动驾驶事件相机目标检测方法

技术领域

本申请属于计算机视觉技术领域，具体涉及基于跨模态噪声感知的自动驾驶事件相机目标检测方法。

背景技术

目标检测是计算机视觉领域的重要研究方向之一，在人机交互、异常行为识别、智能监控、虚拟现实等领域有着广泛的应用场景。目标检测的主要任务是识别出图像中所有感兴趣的目标，并确定其位置和大小。近年来，随着CMOS有源像素感知(activepixelsensing，APS)和深度学习的普及和发展，基于APS的计算机视觉在目标检测技术领域得到了长足发展。然而，APS相机帧率有限、帧间冗余度高、动态范围低等问题极大地限制了目标检测技术在实际产品中的快速和广泛应用。事件相机是新型的基于仿生学的动态视觉传感器，具有低功耗、高动态范围以及高时空分辨率的特点，在高速、高动态、低延迟等传统工业视觉领域的挑战性场景中已经显示出巨大的应用潜力，例如中国专利申请202111269390.9公开了“基于事件相机的目标检测网络自监督训练方法及装置”，能够“增加了数据量和数据多样性，提高了目标检测算法的鲁棒性，降低了人工标注成本。”中国专利申请202211506443 .9公开了“融合事件相机的无人机高动态目标检测方法”，能够“根据置信度将事件的检测结果和普通帧图像的检测结果的融合，实现在快速运动以及缓慢运动时都具有良好的检测效果”。

然而，目前基于事件序列的目标检测技术仍是一项非常具有挑战性的任务。首先，传统深度学习在计算机视觉领域性能显著，但由于事件序列的异步和稀疏性使得直接学习事件的特性异常复杂，使得事件序列的信息编码有别于传统计算机视觉，无法直接适配传统网络。其次，由于事件序列的异步和稀疏性使得事件序列的标注变得异常困难，现有技术采用数据切片后转化为事件图像，并采用人工标注的方法构建有标签事件图像集合，人力成本非常高，且不同的数据切片方法生成的事件图像不同，标注信息不具有复用性。

发明内容

本发明为克服现有技术的不足，利用事件和RGB数据实现无需人工标注的事件序列的目标检测任务，为高速运动、高动态范围、低延迟等场景下的目标检测任务提供了基于事件相机的解决方案。

本发明提供了基于跨模态噪声感知的自动驾驶事件相机目标检测方法，本发明提供了以下技术方案：

基于跨模态噪声感知的自动驾驶事件相机目标检测方法，包括以下步骤：

步骤1、获取目标的RGB图像和DVS事件序列；

步骤2、用已经训练好的商用目标检测网络对所述RGB图像进行标注得到带有多个标签框的RGB图像，同时将所述DVS事件序列转化为事件图像；

步骤3、将RGB图像带有的多个标签框通过几何变换的方式迁移到事件图像，作为事件图像的标签框；

步骤4、通过带有多个标签框的事件图像训练目标检测器，收集开源RGB图像目标检测数据集，使用训练后的目标检测器对开源RGB图像目标检测数据集中包含的带有人工标签框的RGB图像进行筛选；

步骤5、利用筛选得到的RGB图像和带有多个标签框的事件图像对目标检测器重新训练，然后根据感知噪声比例，对事件图像带有的多个标签框进行修正，最后再次重新训练目标检测器，最终得到事件图像目标检测器。

优选的，步骤2将所述DVS事件序列转化为事件图像中，首先将所述DVS事件序列按照时间顺序划分为 N 个区域，每个区域的时间长度为 δ ， δ 为微秒或毫秒级，然后将每个区域的DVS事件序列分别编码为事件图像。

优选的，步骤3的实现过程为：

将RGB图像曝光终止时刻的时间戳 t 作为RGB图像的时间戳，检测RGB图像的时间戳 t 落入区域所对应的DVS事件序列，将RGB图像带有的标签框通过几何变换的方式迁移到该DVS事件序列所转化的事件图像，作为事件图像的标签框。

优选的，步骤4的实现过程为：步骤4.1、利用带有多个标签框的事件图像对目标检测器进行训练；

步骤4.2、收集多个开源RGB图像目标检测数据集，每个所述开源RGB图像目标检测数据集中均包含带有人工标签框的RGB图像；

步骤4.3、将多个开源RGB图像目标检测数据集进行融合，并根据事件图像所带有标签框的类别，对步骤4.2中RGB图像带有的人工标签框进行删除操作，仅保留类别和事件图像所带有标签框的类别一致的人工标签框；

步骤4.4、将训练后的目标检测器设为推理模式，对步骤4.3中进行了人工标签框删除操作的RGB图像进行推理，得到目标检测器对RGB图像推理的不确定性，然后将RGB图像按照不确定性的大小降序排序，筛选得到前m的RGB图像，其中参数 m 的取值为5%～50%。

优选的，步骤5的实现过程为：

步骤5.1、在带有多个标签框的事件图像中选取10%作为验证集，并对验证集中事件图像带有的多个标签框进行人工修正，删除事件图像中含有的噪声标签框；剩余带有多个标签框的事件图像以及步骤4.4中筛选得到的RGB图像共同组成训练集；

步骤5.2、在训练集上对目标检测器重新训练，每进行K轮迭代，目标检测器进行一次验证集的推理，当目标检测器在验证集上性能从快速增长转变为缓慢增长时停止训练；

步骤5.3、用停止训练后的目标检测器对训练集中的带有多个标签框的事件图像进行推理，得到事件图像的预测框集合，定义预测框集合/>为：

(1)

定义由事件图像带有的多个标签框组成的标签框集合为：

(2)

其中：为预测框，/>为标签框；

表示类别，（x，y）表示中心位置像素坐标，（w，h）表示宽度和长度，conf 表示预测框的置信度；

步骤5.4、将同一张事件图像上的预测框和标签框分为三类：、、/>，

（3）

（4）

（5）

其中：式(3) 表示在事件图像上不与任何预测框相交的标签框组成的集合；

式(4)表示在事件图像上预测框与标签框相交组成的集合，同时将预测框与标签框相交定义为 /> 对；

式(5)表示在事件图像上不与任何标签框相交的预测框组成的集合；

步骤5.5、对于中的每个标签框，计算标签框与同一事件图像中的其它所有标签框的距离GIoU，取平均距离作为该标签框的分数，然后将/> 中所有标签框按照分数大小升序排列；

对于中的每一个预测框，计算预测框和所有相交的标签框的IOU交并比，保留最大IOU交并比所对应的标签框，将保留的标签框和该预测框组成/>对；若多个预测框对应同一个标签框，则取 IOU交并比最大预测框和所对应的标签框组成对，然后将 /> 对按照 />，即预测框的置信度降序排列；

对于中的每一个预测框，在 /> 中按照 /> ，即预测框的置信度降序排列；

步骤5.6、根据目标检测器在验证集上的性能给出感知噪声比例 [p1,p2,p3] ，并根据感知噪声比例 [p1,p2,p3] 修改标签框集合，p1、p2、p3分别表示/>、、/> 中的感知噪声比例，将修改后的标签框集合定义为 /> ，即包括：

1）取中前 (1-p1) 的标签框；

2）取中前p2的 /> 对中的预测框，在剩下的对中全部取标签框；

3）取中前 (1-p3) 的预测框；

步骤5.7、由于修改后的标签框集合中包括标签框和预测框，则去掉预测框中的conf 置信度，得到统一的修改后的标签框集合/> ，用统一的修改后的标签框集合/> 替代标签框集合 />，即将标签框集合/>中的标签框作为事件图像新的标签框指导目标检测器下一次训练；

步骤5.8、重复步骤5.2—5.7，同时步骤5.6每轮感知噪声比例递减，直到目标检测器在步骤5.2中记录的验证集检测性能出现下降，停止训练，得到最终的事件图像目标检测器。

有益效果

（1）、本发明提供了一套完善的基于跨模态噪声感知的自动驾驶事件相机目标检测方法：1）商用目标检测网络代替人进行RGB图像的自动标注，将RGB图像的标注迁移到事件序列中。2）利用具有标签的训练集事件图像初步训练（Warm-up）一个事件图像检测器，将其作为“筛选器”，筛选开源RGB图像中对事件图像训练帮助最大的RGB图像加入训练，以增加目标特征的多样性，减少训练集标签框的噪声比例；其次，为了缓解噪声标签框对检测器的影响，将训练分为几个阶段，在每个阶段的训练过程中动态感知噪声标签，并对噪声标签进行修正后在下一阶段继续使用。

（2）、本发明利用了大规模RGB目标检测数据集信息，辅助事件图像进行带噪标签训练。

（3）、本发明不仅适用于事件序列的目标检测领域，在事件序列的分类、实例分割等任务中，也可复用这一套处理方案，有望取得正面效果。

附图说明

图1是本发明提供的基于跨模态噪声感知的自动驾驶事件相机目标检测方法整体流程图；

图2是本发明提供的跨模态标签噪声感知训练方法流程图。

实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了基于迁移学习的无标签事件序列目标检测方法，具体原理如图1所示，包括以下步骤：

步骤1、获取目标的RGB图像和DVS事件序列。

步骤1.1、得到100万像素的事件相机和GoPro Hero 6 RGB运动相机，这两个摄像头并排固定在一个刚性支架上，尽可能靠近以尽量减少视差误差；

步骤1.2、将刚性支架安装在汽车的车顶上，汽车运动，事件相机和运动相机同时拍摄，得到同一场景的DVS事件序列和RGB图像。

步骤2、用已经训练好的商用目标检测网络对所述RGB图像进行标注得到带有标签框的RGB图像，同时将所述DVS事件序列转化为事件图像。

步骤2.1、用训练好的商用自动驾驶车载目标检测探测器对获取到的RGB图像进行标注；

步骤2.2、对一段事件序列按照时间顺序划分为N个区域，每个区域的时间长度为10毫秒，取出10ms区域中的事件序列；

步骤2.3、事件E=(x,y,t,p)，事件相机分辨率为1280*720，事件图像分辨率为1280*720，遍历事件序列，将其按照像素位置分成若干集合，对于1280*720中的每个像素点(x_i,y_i)，若(x_i,y_i)无事件，像素值为127，(x_i,y_i)有M个事件，按照时间戳大小，取最后一个事件的极性，极性正，像素值为255，极性负，像素值为0。

步骤3、将RGB图像带有的标签框通过几何变换的方式迁移到事件图像，作为事件图像的标签框。

步骤3.1、将RGB图像曝光终止时刻的时间戳 t 作为RGB图像的时间戳，检测RGB图像的时间戳 t 落入区域所对应的DVS事件序列；

步骤3.2、将RGB图像标签框通过几何变换的方式迁移到该DVS事件序列所转化的事件图像，作为事件图像的标签框。

步骤4、通过带有标签框的事件图像初步训练目标检测器，收集开源RGB图像目标检测数据集，使用初步训练后的目标检测器对开源RGB图像目标检测数据集中包含的带有人工标签框的RGB图像进行筛选。

步骤4.1、利用带有标签框的事件图像对目标检测器进行初步训练；

步骤4.3、将多个开源RGB图像目标检测数据集进行融合，并删去RGB图像中不同于事件图像所带有的标签框类别的标签框；

步骤4.4、将初步训练后的目标检测器设为推理模式，对步骤4.3中保留的RGB图像进行推理，得到目标检测器对RGB图像推理的不确定性，然后将RGB图像按照不确定性的大小降序排序，筛选得到前m的RGB图像，其中参数 m 的取值为5%～50%。

步骤5、如图2所示，利用筛选得到的RGB图像和带有标签框的事件图像对目标检测器进行训练，并在训练过程中动态感知噪声标签框，并对噪声标签框进行修正，然后重新训练目标检测器，最终得到事件图像目标检测器。

步骤5.2、加载coco数据集预训练权重的目标检测器，在训练集上进行训练，每进行K轮迭代，目标检测器进行一次验证集的推理，当目标检测器在验证集上性能从快速增长转变为缓慢增长时停止训练；

步骤5.3、用停止训练后的目标检测器对训练集中的带有标签框的事件图像进行推理，得到事件图像的伪标签框集合，定义伪标签框集合/>为：

(1)

同时，定义训练集中事件图像带有的标签框为：

(2)

其中：为预测框，/>为标签框；

表示预测框的所属类别、标签框的所属类别，（x，y）表示预测框的中心位置像素坐标、标签框的中心位置像素坐标，（w，h）表示预测框的宽度和长度、标签框的宽度和长度，conf表示预测框的置信度；

步骤5.4、将同一张事件图像上预测框和标签框/>分为三类： />、、/>，

（3）

（4）

（5）

其中：式(3) 表示在事件图像上不与任何 /> 预测框相交的 />标签框集合；

式(4)表示在事件图像上预测框与标签框相交组成的集合，同时将预测框与/>标签框相交定义为 /> 对；

式(5)表示在事件图像上不与任何 /> 标签框相交的 /> 预测框集合；

步骤5.5、对于中的每个 /> 标签框，计算 /> 标签框与同一事件图像中的其它所有标签框的距离GIoU，取平均距离作为该 /> 标签框的分数，然后将中所有 /> 标签框按照分数大小升序排列；

对于中的每一个/> 预测框，计算 /> 预测框和所有相交的标签框的IOU交并比，保留最大IOU交并比所对应的 /> 标签框；若多个 /> 预测框对应同一个 /> 标签框，则取 IOU交并比最大的 /> 预测框和所对应的/>标签框组成 /> 对，然后将 /> 对按照 /> ，即 /> 预测框的置信度降序排列，

对于中的每一个/> 预测框，在 /> 中按照，即 /> 预测框的置信度降序排列；

步骤5.6、根据目标检测器在验证集上的性能给出感知噪声比例 [p1,p2,p3] ，并根据感知噪声比例 [p1,p2,p3] 修改事件图像带有的标签框集合，p1、p2、p3分别表示、/>、/> 中的感知噪声比例，将修改后的事件图像带有的标签框集合定义为 /> ，即 /> 包括：

1）取中前 (1-p1) 的 /> 标签框；

2）取中前p2的 /> 对中的/>预测框，在剩下的对中全部取 /> 标签框；

3）取中前 (1-p3) 的 /> 预测框；

步骤5.7、由于修改后的标签框集合中包括 /> 标签框和 /> 预测框，则去掉 /> 预测框中的conf 置信度，得到统一的修改后的标签框集合/> ，用统一的修改后的标签框集合/> 替代事件图像带有的标签框集合 />，作为事件图像新的标签框指导目标检测器下一次训练；

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于跨模态噪声感知的自动驾驶事件相机目标检测方法，其特征在于，包括以下步骤：

步骤1、获取目标的RGB图像和DVS事件序列；

步骤3、将RGB图像带有的多个标签框通过几何变换的方式迁移到事件图像；

步骤5、利用筛选得到的RGB图像和带有多个标签框的事件图像对目标检测器重新训练，然后根据感知噪声比例，对事件图像带有的多个标签框进行修正，最后再次重新训练目标检测器，最终得到事件图像目标检测器；

步骤4的实现过程为：步骤4.1、利用带有多个标签框的事件图像对目标检测器进行训练；

步骤4.4、将训练后的目标检测器设为推理模式，对步骤4.3中进行了人工标签框删除操作的RGB图像进行推理，得到目标检测器对RGB图像推理的不确定性，然后将RGB图像按照不确定性的大小降序排序，筛选得到前m的RGB图像，其中参数 m 的取值为5%～50%；

步骤5的实现过程为：

(1)

定义由事件图像带有的多个标签框组成的标签框集合为：

(2)

其中：为预测框，/>为标签框；

步骤5.4、将同一张事件图像上的预测框和标签框分为三类：、/>、，

（3）

（4）

（5）

1）取中前 (1-p1) 的标签框；

2）取中前p2的 /> 对中的预测框，在剩下的/> 对中全部取标签框；

3）取中前 (1-p3) 的预测框；

2.根据权利要求1所述的基于跨模态噪声感知的自动驾驶事件相机目标检测方法，其特征在于，步骤2将所述DVS事件序列转化为事件图像中，首先将所述DVS事件序列按照时间顺序划分为 N 个区域，每个区域的时间长度为 δ ， δ 为微秒或毫秒级，然后将每个区域的DVS事件序列分别编码为事件图像。

3.根据权利要求2所述的基于跨模态噪声感知的自动驾驶事件相机目标检测方法，其特征在于，步骤3的实现过程为：

将RGB图像曝光终止时刻的时间戳 t 作为RGB图像的时间戳，检测RGB图像的时间戳 t落入区域所对应的DVS事件序列，将RGB图像带有的多个标签框通过几何变换的方式迁移到该DVS事件序列所转化的事件图像。