CN116912798B - 基于跨模态噪声感知的自动驾驶事件相机目标检测方法 - Google Patents
基于跨模态噪声感知的自动驾驶事件相机目标检测方法 Download PDFInfo
- Publication number
- CN116912798B CN116912798B CN202311181388.5A CN202311181388A CN116912798B CN 116912798 B CN116912798 B CN 116912798B CN 202311181388 A CN202311181388 A CN 202311181388A CN 116912798 B CN116912798 B CN 116912798B
- Authority
- CN
- China
- Prior art keywords
- event
- tag
- frame
- image
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000008447 perception Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000033001 locomotion Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 1
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供基于跨模态噪声感知的自动驾驶事件相机目标检测方法,属于计算机视觉技术领域,包括以下步骤:获取目标的RGB图像和DVS事件序列;商用目标检测网络对RGB图像进行标注,并将事件序列编码为事件图像;RGB图像通过几何变换后,标签迁移到事件图像作为事件图像标签;筛选高质量RGB图像加入事件图像训练集组成跨模态训练集进行跨模态标签噪声感知训练,标签噪声感知训练在训练过程中动态感知噪声标签,并对噪声标签进行修正后继续使用。本发明针对事件相机目标检测中训练集标签噪声问题出了解决方法,此方法也可迁移到事件序列的分类、实例分割等任务,为如何方便地利用事件序列数据提出了新的框架。
Description
技术领域
本申请属于计算机视觉技术领域,具体涉及基于跨模态噪声感知的自动驾驶事件相机目标检测方法。
背景技术
目标检测是计算机视觉领域的重要研究方向之一,在人机交互、异常行为识别、智能监控、虚拟现实等领域有着广泛的应用场景。目标检测的主要任务是识别出图像中所有感兴趣的目标,并确定其位置和大小。近年来,随着CMOS有源像素感知(activepixelsensing,APS)和深度学习的普及和发展,基于APS的计算机视觉在目标检测技术领域得到了长足发展。然而,APS相机帧率有限、帧间冗余度高、动态范围低等问题极大地限制了目标检测技术在实际产品中的快速和广泛应用。事件相机是新型的基于仿生学的动态视觉传感器,具有低功耗、高动态范围以及高时空分辨率的特点,在高速、高动态、低延迟等传统工业视觉领域的挑战性场景中已经显示出巨大的应用潜力,例如中国专利申请202111269390.9公开了“基于事件相机的目标检测网络自监督训练方法及装置”,能够“增加了数据量和数据多样性,提高了目标检测算法的鲁棒性,降低了人工标注成本。”中国专利申请202211506443 .9公开了“融合事件相机的无人机高动态目标检测方法”,能够“根据置信度将事件的检测结果和普通帧图像的检测结果的融合,实现在快速运动以及缓慢运动时都具有良好的检测效果”。
然而,目前基于事件序列的目标检测技术仍是一项非常具有挑战性的任务。首先,传统深度学习在计算机视觉领域性能显著,但由于事件序列的异步和稀疏性使得直接学习事件的特性异常复杂,使得事件序列的信息编码有别于传统计算机视觉,无法直接适配传统网络。其次,由于事件序列的异步和稀疏性使得事件序列的标注变得异常困难,现有技术采用数据切片后转化为事件图像,并采用人工标注的方法构建有标签事件图像集合,人力成本非常高,且不同的数据切片方法生成的事件图像不同,标注信息不具有复用性。
发明内容
本发明为克服现有技术的不足,利用事件和RGB数据实现无需人工标注的事件序列的目标检测任务,为高速运动、高动态范围、低延迟等场景下的目标检测任务提供了基于事件相机的解决方案。
本发明提供了基于跨模态噪声感知的自动驾驶事件相机目标检测方法,本发明提供了以下技术方案:
基于跨模态噪声感知的自动驾驶事件相机目标检测方法,包括以下步骤:
步骤1、获取目标的RGB图像和DVS事件序列;
步骤2、用已经训练好的商用目标检测网络对所述RGB图像进行标注得到带有多个标签框的RGB图像,同时将所述DVS事件序列转化为事件图像;
步骤3、将RGB图像带有的多个标签框通过几何变换的方式迁移到事件图像,作为事件图像的标签框;
步骤4、通过带有多个标签框的事件图像训练目标检测器,收集开源RGB图像目标检测数据集,使用训练后的目标检测器对开源RGB图像目标检测数据集中包含的带有人工标签框的RGB图像进行筛选;
步骤5、利用筛选得到的RGB图像和带有多个标签框的事件图像对目标检测器重新训练,然后根据感知噪声比例,对事件图像带有的多个标签框进行修正,最后再次重新训练目标检测器,最终得到事件图像目标检测器。
优选的,步骤2将所述DVS事件序列转化为事件图像中,首先将所述DVS事件序列按照时间顺序划分为 N 个区域,每个区域的时间长度为 δ , δ 为微秒或毫秒级,然后将每个区域的DVS事件序列分别编码为事件图像。
优选的,步骤3的实现过程为:
将RGB图像曝光终止时刻的时间戳 t 作为RGB图像的时间戳,检测RGB图像的时间戳 t 落入区域所对应的DVS事件序列,将RGB图像带有的标签框通过几何变换的方式迁移到该DVS事件序列所转化的事件图像,作为事件图像的标签框。
优选的,步骤4的实现过程为:步骤4.1、利用带有多个标签框的事件图像对目标检测器进行训练;
步骤4.2、收集多个开源RGB图像目标检测数据集,每个所述开源RGB图像目标检测数据集中均包含带有人工标签框的RGB图像;
步骤4.3、将多个开源RGB图像目标检测数据集进行融合,并根据事件图像所带有标签框的类别,对步骤4.2中RGB图像带有的人工标签框进行删除操作,仅保留类别和事件图像所带有标签框的类别一致的人工标签框;
步骤4.4、将训练后的目标检测器设为推理模式,对步骤4.3中进行了人工标签框删除操作的RGB图像进行推理,得到目标检测器对RGB图像推理的不确定性,然后将RGB图像按照不确定性的大小降序排序,筛选得到前m的RGB图像,其中参数 m 的取值为5%~50%。
优选的,步骤5的实现过程为:
步骤5.1、在带有多个标签框的事件图像中选取10%作为验证集,并对验证集中事件图像带有的多个标签框进行人工修正,删除事件图像中含有的噪声标签框;剩余带有多个标签框的事件图像以及步骤4.4中筛选得到的RGB图像共同组成训练集;
步骤5.2、在训练集上对目标检测器重新训练,每进行K轮迭代,目标检测器进行一次验证集的推理,当目标检测器在验证集上性能从快速增长转变为缓慢增长时停止训练;
步骤5.3、用停止训练后的目标检测器对训练集中的带有多个标签框的事件图像进行推理,得到事件图像的预测框集合,定义预测框集合/>为:
(1)
定义由事件图像带有的多个标签框组成的标签框集合为:
(2)
其中: 为预测框,/>为标签框;
表示类别,(x,y)表示中心位置像素坐标,(w,h)表示宽度和长度,conf 表示预测框的置信度;
步骤5.4、将同一张事件图像上的预测框和标签框分为三类: 、、/>,
(3)
(4)
(5)
其中:式(3) 表示在事件图像上不与任何预测框相交的标签框组成的集合;
式(4)表示在事件图像上预测框与标签框相交组成的集合,同时将预测框与标签框相交定义为 /> 对;
式(5)表示在事件图像上不与任何标签框相交的预测框组成的集合;
步骤5.5、对于 中的每个标签框,计算标签框与同一事件图像中的其它所有标签框的距离GIoU,取平均距离作为该标签框的分数,然后将/> 中所有标签框按照分数大小升序排列;
对于 中的每一个预测框,计算预测框和所有相交的标签框的IOU交并比,保留最大IOU交并比所对应的标签框,将保留的标签框和该预测框组成/>对;若多个预测框对应同一个标签框,则取 IOU交并比最大预测框和所对应的标签框组成 对,然后将 /> 对按照 />,即预测框的置信度降序排列;
对于 中的每一个预测框,在 /> 中按照 /> ,即预测框的置信度降序排列;
步骤5.6、根据目标检测器在验证集上的性能给出感知噪声比例 [p1,p2,p3] ,并根据感知噪声比例 [p1,p2,p3] 修改标签框集合 ,p1、p2、p3分别表示/>、、/> 中的感知噪声比例,将修改后的标签框集合定义为 /> ,即 包括:
1)取 中前 (1-p1) 的标签框;
2)取 中前p2的 /> 对中的预测框,在剩下的 对中全部取标签框;
3)取 中前 (1-p3) 的预测框;
步骤5.7、由于修改后的标签框集合 中包括标签框和预测框,则去掉预测框中的conf 置信度,得到统一的修改后的标签框集合/> ,用统一的修改后的标签框集合/> 替代标签框集合 />,即将标签框集合/>中的标签框作为事件图像新的标签框指导目标检测器下一次训练;
步骤5.8、重复步骤5.2—5.7,同时步骤5.6每轮感知噪声比例递减,直到目标检测器在步骤5.2中记录的验证集检测性能出现下降,停止训练,得到最终的事件图像目标检测器。
有益效果
(1)、本发明提供了一套完善的基于跨模态噪声感知的自动驾驶事件相机目标检测方法:1)商用目标检测网络代替人进行RGB图像的自动标注,将RGB图像的标注迁移到事件序列中。2)利用具有标签的训练集事件图像初步训练(Warm-up)一个事件图像检测器,将其作为“筛选器”,筛选开源RGB图像中对事件图像训练帮助最大的RGB图像加入训练,以增加目标特征的多样性,减少训练集标签框的噪声比例;其次,为了缓解噪声标签框对检测器的影响,将训练分为几个阶段,在每个阶段的训练过程中动态感知噪声标签,并对噪声标签进行修正后在下一阶段继续使用。
(2)、本发明利用了大规模RGB目标检测数据集信息,辅助事件图像进行带噪标签训练。
(3)、本发明不仅适用于事件序列的目标检测领域,在事件序列的分类、实例分割等任务中,也可复用这一套处理方案,有望取得正面效果。
附图说明
图1是本发明提供的基于跨模态噪声感知的自动驾驶事件相机目标检测方法整体流程图;
图2是本发明提供的跨模态标签噪声感知训练方法流程图。
实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了基于迁移学习的无标签事件序列目标检测方法,具体原理如图1所示,包括以下步骤:
步骤1、获取目标的RGB图像和DVS事件序列。
步骤1.1、得到100万像素的事件相机和GoPro Hero 6 RGB运动相机,这两个摄像头并排固定在一个刚性支架上,尽可能靠近以尽量减少视差误差;
步骤1.2、将刚性支架安装在汽车的车顶上,汽车运动,事件相机和运动相机同时拍摄,得到同一场景的DVS事件序列和RGB图像。
步骤2、用已经训练好的商用目标检测网络对所述RGB图像进行标注得到带有标签框的RGB图像,同时将所述DVS事件序列转化为事件图像。
步骤2.1、用训练好的商用自动驾驶车载目标检测探测器对获取到的RGB图像进行标注;
步骤2.2、对一段事件序列按照时间顺序划分为N个区域,每个区域的时间长度为10毫秒,取出10ms区域中的事件序列;
步骤2.3、事件E=(x,y,t,p),事件相机分辨率为1280*720,事件图像分辨率为1280*720,遍历事件序列,将其按照像素位置分成若干集合,对于1280*720中的每个像素点(xi,yi),若(xi,yi)无事件,像素值为127,(xi,yi)有M个事件,按照时间戳大小,取最后一个事件的极性,极性正,像素值为255,极性负,像素值为0。
步骤3、将RGB图像带有的标签框通过几何变换的方式迁移到事件图像,作为事件图像的标签框。
步骤3.1、将RGB图像曝光终止时刻的时间戳 t 作为RGB图像的时间戳,检测RGB图像的时间戳 t 落入区域所对应的DVS事件序列;
步骤3.2、将RGB图像标签框通过几何变换的方式迁移到该DVS事件序列所转化的事件图像,作为事件图像的标签框。
步骤4、通过带有标签框的事件图像初步训练目标检测器,收集开源RGB图像目标检测数据集,使用初步训练后的目标检测器对开源RGB图像目标检测数据集中包含的带有人工标签框的RGB图像进行筛选。
步骤4.1、利用带有标签框的事件图像对目标检测器进行初步训练;
步骤4.2、收集多个开源RGB图像目标检测数据集,每个所述开源RGB图像目标检测数据集中均包含带有人工标签框的RGB图像;
步骤4.3、将多个开源RGB图像目标检测数据集进行融合,并删去RGB图像中不同于事件图像所带有的标签框类别的标签框;
步骤4.4、将初步训练后的目标检测器设为推理模式,对步骤4.3中保留的RGB图像进行推理,得到目标检测器对RGB图像推理的不确定性,然后将RGB图像按照不确定性的大小降序排序,筛选得到前m的RGB图像,其中参数 m 的取值为5%~50%。
步骤5、如图2所示,利用筛选得到的RGB图像和带有标签框的事件图像对目标检测器进行训练,并在训练过程中动态感知噪声标签框,并对噪声标签框进行修正,然后重新训练目标检测器,最终得到事件图像目标检测器。
步骤5.1、在带有多个标签框的事件图像中选取10%作为验证集,并对验证集中事件图像带有的多个标签框进行人工修正,删除事件图像中含有的噪声标签框;剩余带有多个标签框的事件图像以及步骤4.4中筛选得到的RGB图像共同组成训练集;
步骤5.2、加载coco数据集预训练权重的目标检测器,在训练集上进行训练,每进行K轮迭代,目标检测器进行一次验证集的推理,当目标检测器在验证集上性能从快速增长转变为缓慢增长时停止训练;
步骤5.3、用停止训练后的目标检测器对训练集中的带有标签框的事件图像进行推理,得到事件图像的伪标签框集合,定义伪标签框集合/>为:
(1)
同时,定义训练集中事件图像带有的标签框为:
(2)
其中: 为预测框,/>为标签框;
表示预测框的所属类别、标签框的所属类别,(x,y)表示预测框的中心位置像素坐标、标签框的中心位置像素坐标,(w,h)表示预测框的宽度和长度、标签框的宽度和长度,conf表示预测框的置信度;
步骤5.4、将同一张事件图像上预测框 和标签框/>分为三类: />、、/>,
(3)
(4)
(5)
其中:式(3) 表示在事件图像上不与任何 /> 预测框相交的 />标签框集合;
式(4)表示在事件图像上 预测框与标签框相交组成的集合,同时将 预测框与/>标签框相交定义为 /> 对;
式(5)表示在事件图像上不与任何 /> 标签框相交的 /> 预测框集合;
步骤5.5、对于 中的每个 /> 标签框,计算 /> 标签框与同一事件图像中的其它所有标签框的距离GIoU,取平均距离作为该 /> 标签框的分数,然后将 中所有 /> 标签框按照分数大小升序排列;
对于 中的每一个/> 预测框,计算 /> 预测框和所有相交的 标签框的IOU交并比,保留最大IOU交并比所对应的 /> 标签框;若多个 /> 预测框对应同一个 /> 标签框,则取 IOU交并比最大的 /> 预测框和所对应的/>标签框组成 /> 对,然后将 /> 对按照 /> ,即 /> 预测框的置信度降序排列,
对于 中的每一个/> 预测框,在 /> 中按照 ,即 /> 预测框的置信度降序排列;
步骤5.6、根据目标检测器在验证集上的性能给出感知噪声比例 [p1,p2,p3] ,并根据感知噪声比例 [p1,p2,p3] 修改事件图像带有的标签框集合 ,p1、p2、p3分别表示、/>、/> 中的感知噪声比例,将修改后的事件图像带有的标签框集合定义为 /> ,即 /> 包括:
1)取 中前 (1-p1) 的 /> 标签框;
2)取 中前p2的 /> 对中的/>预测框,在剩下的 对中全部取 /> 标签框;
3)取 中前 (1-p3) 的 /> 预测框;
步骤5.7、由于修改后的标签框集合 中包括 /> 标签框和 /> 预测框,则去掉 /> 预测框中的conf 置信度,得到统一的修改后的标签框集合/> ,用统一的修改后的标签框集合/> 替代事件图像带有的标签框集合 />,作为事件图像新的标签框指导目标检测器下一次训练;
步骤5.8、重复步骤5.2—5.7,同时步骤5.6每轮感知噪声比例递减,直到目标检测器在步骤5.2中记录的验证集检测性能出现下降,停止训练,得到最终的事件图像目标检测器。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.基于跨模态噪声感知的自动驾驶事件相机目标检测方法,其特征在于,包括以下步骤:
步骤1、获取目标的RGB图像和DVS事件序列;
步骤2、用已经训练好的商用目标检测网络对所述RGB图像进行标注得到带有多个标签框的RGB图像,同时将所述DVS事件序列转化为事件图像;
步骤3、将RGB图像带有的多个标签框通过几何变换的方式迁移到事件图像;
步骤4、通过带有多个标签框的事件图像训练目标检测器,收集开源RGB图像目标检测数据集,使用训练后的目标检测器对开源RGB图像目标检测数据集中包含的带有人工标签框的RGB图像进行筛选;
步骤5、利用筛选得到的RGB图像和带有多个标签框的事件图像对目标检测器重新训练,然后根据感知噪声比例,对事件图像带有的多个标签框进行修正,最后再次重新训练目标检测器,最终得到事件图像目标检测器;
步骤4的实现过程为:步骤4.1、利用带有多个标签框的事件图像对目标检测器进行训练;
步骤4.2、收集多个开源RGB图像目标检测数据集,每个所述开源RGB图像目标检测数据集中均包含带有人工标签框的RGB图像;
步骤4.3、将多个开源RGB图像目标检测数据集进行融合,并根据事件图像所带有标签框的类别,对步骤4.2中RGB图像带有的人工标签框进行删除操作,仅保留类别和事件图像所带有标签框的类别一致的人工标签框;
步骤4.4、将训练后的目标检测器设为推理模式,对步骤4.3中进行了人工标签框删除操作的RGB图像进行推理,得到目标检测器对RGB图像推理的不确定性,然后将RGB图像按照不确定性的大小降序排序,筛选得到前m的RGB图像,其中参数 m 的取值为5%~50%;
步骤5的实现过程为:
步骤5.1、在带有多个标签框的事件图像中选取10%作为验证集,并对验证集中事件图像带有的多个标签框进行人工修正,删除事件图像中含有的噪声标签框;剩余带有多个标签框的事件图像以及步骤4.4中筛选得到的RGB图像共同组成训练集;
步骤5.2、在训练集上对目标检测器重新训练,每进行K轮迭代,目标检测器进行一次验证集的推理,当目标检测器在验证集上性能从快速增长转变为缓慢增长时停止训练;
步骤5.3、用停止训练后的目标检测器对训练集中的带有多个标签框的事件图像进行推理,得到事件图像的预测框集合,定义预测框集合/>为:
(1)
定义由事件图像带有的多个标签框组成的标签框集合为:
(2)
其中: 为预测框,/>为标签框;
表示类别,(x,y)表示中心位置像素坐标,(w,h)表示宽度和长度,conf 表示预测框的置信度;
步骤5.4、将同一张事件图像上的预测框和标签框分为三类: 、/>、,
(3)
(4)
(5)
其中:式(3) 表示在事件图像上不与任何预测框相交的标签框组成的集合;
式(4)表示在事件图像上预测框与标签框相交组成的集合,同时将预测框与标签框相交定义为 /> 对;
式(5)表示在事件图像上不与任何标签框相交的预测框组成的集合;
步骤5.5、对于 中的每个标签框,计算标签框与同一事件图像中的其它所有标签框的距离GIoU,取平均距离作为该标签框的分数,然后将/> 中所有标签框按照分数大小升序排列;
对于 中的每一个预测框,计算预测框和所有相交的标签框的IOU交并比,保留最大IOU交并比所对应的标签框,将保留的标签框和该预测框组成/>对;若多个预测框对应同一个标签框,则取 IOU交并比最大预测框和所对应的标签框组成 对,然后将 /> 对按照 />,即预测框的置信度降序排列;
对于 中的每一个预测框,在 /> 中按照 /> ,即预测框的置信度降序排列;
步骤5.6、根据目标检测器在验证集上的性能给出感知噪声比例 [p1,p2,p3] ,并根据感知噪声比例 [p1,p2,p3] 修改标签框集合 ,p1、p2、p3分别表示/>、、/> 中的感知噪声比例,将修改后的标签框集合定义为 /> ,即 包括:
1)取 中前 (1-p1) 的标签框;
2)取 中前p2的 /> 对中的预测框,在剩下的/> 对中全部取标签框;
3)取 中前 (1-p3) 的预测框;
步骤5.7、由于修改后的标签框集合 中包括标签框和预测框,则去掉预测框中的conf 置信度,得到统一的修改后的标签框集合/> ,用统一的修改后的标签框集合/> 替代标签框集合 />,即将标签框集合/>中的标签框作为事件图像新的标签框指导目标检测器下一次训练;
步骤5.8、重复步骤5.2—5.7,同时步骤5.6每轮感知噪声比例递减,直到目标检测器在步骤5.2中记录的验证集检测性能出现下降,停止训练,得到最终的事件图像目标检测器。
2.根据权利要求1所述的基于跨模态噪声感知的自动驾驶事件相机目标检测方法,其特征在于,步骤2将所述DVS事件序列转化为事件图像中,首先将所述DVS事件序列按照时间顺序划分为 N 个区域,每个区域的时间长度为 δ , δ 为微秒或毫秒级,然后将每个区域的DVS事件序列分别编码为事件图像。
3.根据权利要求2所述的基于跨模态噪声感知的自动驾驶事件相机目标检测方法,其特征在于,步骤3的实现过程为:
将RGB图像曝光终止时刻的时间戳 t 作为RGB图像的时间戳,检测RGB图像的时间戳 t落入区域所对应的DVS事件序列,将RGB图像带有的多个标签框通过几何变换的方式迁移到该DVS事件序列所转化的事件图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181388.5A CN116912798B (zh) | 2023-09-14 | 2023-09-14 | 基于跨模态噪声感知的自动驾驶事件相机目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181388.5A CN116912798B (zh) | 2023-09-14 | 2023-09-14 | 基于跨模态噪声感知的自动驾驶事件相机目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912798A CN116912798A (zh) | 2023-10-20 |
CN116912798B true CN116912798B (zh) | 2023-12-19 |
Family
ID=88363396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311181388.5A Active CN116912798B (zh) | 2023-09-14 | 2023-09-14 | 基于跨模态噪声感知的自动驾驶事件相机目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912798B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948725A (zh) * | 2019-03-28 | 2019-06-28 | 清华大学 | 基于地址-事件表达的神经网络目标检测装置 |
KR20200044182A (ko) * | 2018-10-05 | 2020-04-29 | 삼성전자주식회사 | 자율 주행 장치의 객체 인식 방법 및 자율 주행 장치 |
CN112800860A (zh) * | 2021-01-08 | 2021-05-14 | 中电海康集团有限公司 | 一种事件相机和视觉相机协同的高速抛撒物检测方法和系统 |
CN113442936A (zh) * | 2020-03-27 | 2021-09-28 | 英特尔公司 | 用于在自主驾驶系统中检测对象并计算接触时间的方法和设备 |
CN114049483A (zh) * | 2021-10-29 | 2022-02-15 | 中国电子科技南湖研究院 | 基于事件相机的目标检测网络自监督训练方法及装置 |
WO2022135594A1 (zh) * | 2020-12-25 | 2022-06-30 | 北京灵汐科技有限公司 | 目标物体的检测方法及装置、融合处理单元、介质 |
CN115035597A (zh) * | 2022-06-07 | 2022-09-09 | 中国科学技术大学 | 一种基于事件相机的变光照动作识别方法 |
CN115210804A (zh) * | 2020-01-22 | 2022-10-18 | 洞见未来科技股份有限公司 | 一种在开放现场中主动噪声消除的系统和方法 |
WO2023077821A1 (zh) * | 2021-11-07 | 2023-05-11 | 西北工业大学 | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 |
CN116309781A (zh) * | 2023-05-18 | 2023-06-23 | 吉林大学 | 一种基于跨模态融合的水下视觉目标测距方法及装置 |
CN116596971A (zh) * | 2023-05-29 | 2023-08-15 | 上海大学 | 一种航拍运动目标的双重检测方法及系统、存储介质 |
CN116681961A (zh) * | 2023-04-28 | 2023-09-01 | 北京航空航天大学 | 基于半监督方法和噪声处理的弱监督目标检测方法 |
-
2023
- 2023-09-14 CN CN202311181388.5A patent/CN116912798B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200044182A (ko) * | 2018-10-05 | 2020-04-29 | 삼성전자주식회사 | 자율 주행 장치의 객체 인식 방법 및 자율 주행 장치 |
CN109948725A (zh) * | 2019-03-28 | 2019-06-28 | 清华大学 | 基于地址-事件表达的神经网络目标检测装置 |
CN115210804A (zh) * | 2020-01-22 | 2022-10-18 | 洞见未来科技股份有限公司 | 一种在开放现场中主动噪声消除的系统和方法 |
CN113442936A (zh) * | 2020-03-27 | 2021-09-28 | 英特尔公司 | 用于在自主驾驶系统中检测对象并计算接触时间的方法和设备 |
WO2022135594A1 (zh) * | 2020-12-25 | 2022-06-30 | 北京灵汐科技有限公司 | 目标物体的检测方法及装置、融合处理单元、介质 |
CN112800860A (zh) * | 2021-01-08 | 2021-05-14 | 中电海康集团有限公司 | 一种事件相机和视觉相机协同的高速抛撒物检测方法和系统 |
CN114049483A (zh) * | 2021-10-29 | 2022-02-15 | 中国电子科技南湖研究院 | 基于事件相机的目标检测网络自监督训练方法及装置 |
WO2023077821A1 (zh) * | 2021-11-07 | 2023-05-11 | 西北工业大学 | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 |
CN115035597A (zh) * | 2022-06-07 | 2022-09-09 | 中国科学技术大学 | 一种基于事件相机的变光照动作识别方法 |
CN116681961A (zh) * | 2023-04-28 | 2023-09-01 | 北京航空航天大学 | 基于半监督方法和噪声处理的弱监督目标检测方法 |
CN116309781A (zh) * | 2023-05-18 | 2023-06-23 | 吉林大学 | 一种基于跨模态融合的水下视觉目标测距方法及装置 |
CN116596971A (zh) * | 2023-05-29 | 2023-08-15 | 上海大学 | 一种航拍运动目标的双重检测方法及系统、存储介质 |
Non-Patent Citations (2)
Title |
---|
Emergent visual sensors for autonomous vehicles;You LI 等;《IEEE Transactions on Intelligent Transportation Systems》;第24卷(第5期);4716-4737 * |
Learning rules in spiking neural networks: A survey;Zexiang YI 等;《Neurocomputing》;第531卷;163-179 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912798A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN111008633B (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN115082855A (zh) | 基于改进yolox算法的行人遮挡检测方法 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN111832410B (zh) | 一种基于视觉与激光雷达融合的前向列车检测方法 | |
CN111414807A (zh) | 一种基于yolo技术的潮水识别与危机预警方法 | |
CN117152443B (zh) | 一种基于语义前导指引的图像实例分割方法及系统 | |
CN116311254B (zh) | 一种恶劣天气情况下的图像目标检测方法、系统及设备 | |
CN111582074A (zh) | 一种基于场景深度信息感知的监控视频树叶遮挡检测方法 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN112766056A (zh) | 一种基于深度神经网络的弱光环境车道线检测方法、装置 | |
CN115761574A (zh) | 基于边框标注的弱监督视频目标分割方法及装置 | |
CN114529890A (zh) | 状态检测方法、装置、电子设备及存储介质 | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN116912798B (zh) | 基于跨模态噪声感知的自动驾驶事件相机目标检测方法 | |
US10735660B2 (en) | Method and device for object identification | |
CN116797789A (zh) | 一种基于注意力架构的场景语义分割方法 | |
CN111126170A (zh) | 一种基于目标检测与追踪的视频动态物检测方法 | |
CN115861948A (zh) | 车道线检测方法、设备及预警方法、系统、介质 | |
CN115393822A (zh) | 一种雾天行车障碍物检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |