CN117671239A - 室内场景下的半监督3d目标检测方法、系统及存储介质 - Google Patents
室内场景下的半监督3d目标检测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117671239A CN117671239A CN202311619574.2A CN202311619574A CN117671239A CN 117671239 A CN117671239 A CN 117671239A CN 202311619574 A CN202311619574 A CN 202311619574A CN 117671239 A CN117671239 A CN 117671239A
- Authority
- CN
- China
- Prior art keywords
- network
- point
- loss
- data
- supervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及一种室内场景下的半监督3D目标检测方法、系统及存储介质,其包括:获取输入图像和标签,通过全监督网络完成预训练,将全部点云数据划分为有标注数据和无标注数据;将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
Description
技术领域
本发明涉及一种计算机视觉技术领域,特别是关于一种室内场景下的半监督3D目标检测方法、系统及存储介质。
背景技术
近年来,随着深度学习技术的发展和数据的海量增长,3D目标检测方法取得了巨大的进步。作为许多下游任务的基础,3D目标检测吸引了研究者的广泛关注。由于点云数据能够在最大程度上保留3D数据的原始特征,目前的3D目标检测方法主要采用点云数据作为输入,但点云本身所具有的稀疏性、不规则性及无序性等属性为目标检测带来了一系列挑战。现有的3D目标检测方法都依赖于大量精心标注的点云数据,但对3D场景的标注是费时费力的,因此,半监督3D目标检测逐渐成为了一种研究热点,并取得了显著的成效。目前的半监督3D目标检测方法主要采用的是教师-学生网络的通用架构,通过约束两个网络预测结果的一致性实现对无标注场景的检测。然而,相比于室外场景,室内场景存在很多小尺寸物体和被遮挡的物体,在半监督架构中对于这些物体的检测是尤为困难的。目前少有工作研究室内场景中针对于遮挡物体和小物体的半监督检测方法,这些物体表面点的数量较少,加剧了点云的稀疏性,在极大程度上影响了半监督目标检测的性能。
现有文献SESS(Zhao,N.;Chua,T.-S.;and Lee,G.H.2020.Sess:Selfensemblingsemi-supervised 3d object detection.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,11079–11087)中提出了一种室内场景下的半监督3D目标检测方法,该方法采用教师-学生网络,用少量标注数据和大量无标注数据作为输入,通过学生网络和教师网络预测结果的一致性学习,训练网络产生预测结果。为了提升检测精度,现有文献3DIoUMatch(Wang,H.;Cong,Y.;Litany,O.;Gao,Y.;and Guibas,L.J.2021.3dioumatch:Leveraging iou prediction for semisupervised 3dobjectdetection.In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition,14615–14624)在SESS的基础上提出了一个双阶段半监督目标检测网络,通过对预测框进行选择和微调,在室内场景的检测中取得了更好的性能。尽管以上方法都在室内场景的半监督检测方面取得了较大的进步,但目前的方法仍存在以下问题:(1)没有对室内场景中的遮挡物体和小物体的检测提出针对性的解决方法;(2)没有充分利用已标注数据的有效信息;(3)在对教师网络和学生网络的预测结果进行匹配时,粗暴简单的匹配方法容易造成匹配歧义问题,匹配歧义是指在学生网络中的同一预测结果与教师网络中不同的预测结果相匹配并计算损失函数,会削弱网络的收敛速度,并降低检测精度。
综合上述分析,研究如何提升室内场景检测精度的半监督检测方法显得尤为重要。因此,亟需一种新的半监督3D目标检测方法来进一步针对遮挡物体和小物体的检测,从而提升检测性能。
发明内容
针对上述问题,本发明的目的是提供一种室内场景下的半监督3D目标检测方法、系统及存储介质,其能提升对遮挡物体和小物体的检测性能,达到接近于全监督目标检测网络的结果。
为实现上述目的,本发明采取以下技术方案:一种室内场景下的半监督3D目标检测方法,其包括:获取网络的输入图像和标签,通过全监督网络完成预训练,将输入图像的全部点云数据划分为有标注数据和无标注数据;将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
进一步,输入学生网络计算预测损失,包括:
学生网络为基于霍夫投票的全监督3D目标检测网络;
预测损失包括投票损失Lv、目标置信度损失Lo、分类损失Lc和定位损失Ls,标注数据的预测损失为:Lsup=Lv+λ1Lo+λ2Lc+λ3Ls,其中,λ1,λ2,λ3代表损失函数的权重。
进一步,教师网络与学生网络结构保持完全一致的网络,其参数由学生网络的参数根据exponential moving average方法计算而得,在第t个迭代步,教师网格的参数更新为:
其中,β为平滑的超参数,Φt-1为在t-1个迭代步时教师网格的参数,为在第t个迭代步时学生网络的参数。
进一步,将标注数据随机删除网格内的点云,包括:
采用随机删除网格内点的数据增强方法,将真值框进行划分,并随机删除某一网格内的点云。
进一步,标注数据的真值框采用以下一种方式进行划分:
第一种划分方式为:沿y轴和z轴将真值框平均划分为K个网格,随机选择一个网格内的点删除;
第二种划分方式为:将真值框划分为中心框和外部框,中心框是指中心点与真值框重合,尺寸为真值框1/N的包围框,外部框为除中心框以外的部分,删除中心框内的点。
进一步,计算辅助网络产生预测结果与学生网络的投票一致性损失,包括:
对于真值框g的中心点cg,辅助网络中预测的投票点与其欧式距离为学生网络中预测的投票点与其欧式距离为/>二者预测的投票结果由Smooth L1损失函数Lvc监督:
其中,G为真值框的个数。
进一步,将学生网络和教师网络的预测点进行匹配,计算一致性损失,包括:采用最近点匹配的方式寻找匹配闭环;
计算学生网络和教师网络预测中心点的距离,以学生网络预测点集中索引为i的点为当前点,寻找教师网络中离点i最近的点j;
以j为当前点,在学生网络预测的点集中寻找离点j最近的点,交替寻找对方点集中离当前点最近的点;
在教师网络和学生网络中寻找到的点分别组成点集T和点集S,直至找到的下一个最近点已经存在于T或S中,形成匹配闭环;
一致性损失包括匹配损失、中心点一致性损失、类别一致性损失及尺寸一致性损失:
分别计算点集T和点集S中点的欧式距离,二者相加作为匹配损失Lmatch;
中心一致性损失由对齐后的教师网络和学生网络中心点的二范数计算得到,对齐是指在对方网络中找到的离本网络预测点最近的点;
类别一致性损失由对齐后点对的KL散度计算得到;
尺寸一致性损失由对齐点对之间的MSE损失计算得到。
一种室内场景下的半监督3D目标检测系统,其包括:数据获取模块,获取网络的输入图像和标签,通过全监督网络完成预训练,将输入图像的全部点云数据划分为有标注数据和无标注数据;第一损失计算模块,将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;第二损失计算模块,将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;检测模块,将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明采用随机删除网格内所有点的数据增强方法,模拟了室内场景中遮挡物体和小物体的稀疏性,以提升对于这些物体的检测性能。
2、本发明采用加入辅助网络的方法,通过约束辅助网络与学生网络的投票一致性,以更大程度挖掘标注数据的有效信息。
3、本发明采用学生网络和教师网络预测点匹配的方法,通过寻找匹配闭环,以更加严格地约束两个网络预测结果的一致性。
4、将本发明应用在基于深度学习的室内场景3D目标检测模型中,可以大大提升模型的检测性能。
综上,本发明可以应用在基于深度学习的全监督3D目标检测模型中,仅采用部分标注数据,提升模型对遮挡物体和小物体的检测性能,以达到接近于全监督目标检测网络的结果。
附图说明
图1是本发明实施例中半监督3D目标检测方法的网络结构示意图;
图2是SESS检测结果示意图;
图3是本发明实施例的检测结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
为了提升室内场景检测精度的,本发明提供一种室内场景下的半监督3D目标检测方法、系统及存储介质,主要针对于室内场景的应用在深度学习3D目标检测中的一种半监督检测方法。本发明包括随机删除网格内点的数据增强方法,增加辅助网络的方法和寻找匹配闭环的方法。具体实施步骤为:将预处理后的图像和标签输入网络预训练;将数据划分为标注数据和无标注数据;对所有数据进行随机翻转、旋转和下采样,输入学生网络计算预测损失;对所有数据进行随机下采样后输入教师网络;对标注数据随机删除网格内的点后输入增加的辅助网络;计算辅助网络与学生网络的投票一致性;将学生网络和教师网络的预测点采用寻找匹配闭环的方法进行匹配,计算一致性损失;将计算得到的所有损失相加作为最终损失;输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
在本发明的一个实施例中,提供一种室内场景下的半监督3D目标检测方法。本实施例中,如图1所示,该方法包括以下步骤:
1)获取网络的输入图像和标签,通过全监督网络完成预训练,将输入图像的全部点云数据划分为有标注数据和无标注数据;
2)将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;
3)将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;
4)将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
上述步骤1)中,采用基于霍夫投票的全监督网络完成预训练,且标注数据中包含了所有类别。
上述步骤2)中,对于每一张图像,随机绕x轴翻转,其二值化表述为:
α为从[0,1]中均匀抽取的随机变量;
对于每一张图像,随机绕y轴翻转,与上述绕x轴翻转过程相一致;
对于每一张图像,围绕z轴进行旋转ω角度,其公式化表述为:
对于每一张图像,将其随机下采样到固定点云数量。
本实施例中,输入教师网络的原始数据仅进行随机下采样到固定点云数量。
上述步骤2)中,输入学生网络计算预测损失,具体为:学生网络为基于霍夫投票的全监督3D目标检测网络;
预测损失包括投票损失Lv、目标置信度损失Lo、分类损失Lc和定位损失Ls,标注数据的预测损失为:Lsup=Lv+λ1Lo+λ2Lc+λ3Ls,其中,λ1,λ2,λ3代表损失函数的权重。
其中,投票损失Lv的公式为:
其中,Mpos代表正样本的数量,Δxi代表索引为i的点离其预测中心点的距离,代表索引为i的点离其对应的真值框中心点的距离;
目标置信度损失由Cross Entropy Loss计算而得,分类损失Lc为Focal Loss损失,定位损失Ls可采用IoU系列损失函数或Smooth L1损失函数等。
上述步骤2)中,教师网络与学生网络结构保持完全一致的网络,其参数由学生网络的参数根据exponential moving average方法计算而得,在第t个迭代步,教师网格的参数更新为:
其中,β为平滑的超参数,它控制着教师从学生网络中获取多少信息,根据经验设置为0.99;Φt-1为在t-1个迭代步时教师网格的参数;为在第t个迭代步时学生网络的参。
上述步骤2)中,将学生网络和教师网络的预测点进行匹配,计算一致性损失,采用最近点匹配的方式寻找匹配闭环;包括以下步骤:
2.1)计算学生网络和教师网络预测中心点的距离,以学生网络预测点集中索引为i的点为当前点,寻找教师网络中离点i最近的点j;
2.2)以j为当前点,在学生网络预测的点集中寻找离点j最近的点,交替寻找对方点集中离当前点最近的点;
2.3)在教师网络和学生网络中寻找到的点分别组成点集T和点集S,直至找到的下一个最近点已经存在于T或S中,形成匹配闭环。
本实施例中,一致性损失包括匹配损失、中心点一致性损失、类别一致性损失及尺寸一致性损失,其中:
分别计算点集T和点集S中点的欧式距离,二者相加作为匹配损失Lmatch:
其中,|Cs|为点集S中点的个数,和/>为点集S中索引分别为i和j的点的三维坐标值;|Ct|,/>和/>与前述同理。
中心一致性损失由对齐后的教师网络和学生网络中心点的二范数计算得到,对齐是指在对方网络中找到的离本网络预测点最近的点,中心一致性损失Lcenter为:
其中,rs和rt分别代表学生网络和教师网络预测的中心点,和/>代表教师网络和学生网络由上述对齐方式对齐后的点,|rs|和|rt|代表学生网络和教师网络中预测点的个数。
类别一致性损失由对齐后点对的KL(Kullback-Leibler)散度计算得到,类别一致性损失Lclass为:
其中,pt代表教师网络预测类别的置信度,代表学生网络中与教师网络对齐点的类别预测置信度,|pt|代表教师网络预测点的个数。
尺寸一致性损失由对齐点对之间的MSE损失计算得到,尺寸一致性损失Lsize为:
其中,dt代表教师网络预测包围框的尺寸,代表学生网络与教师网络对齐的包围框的尺寸,|dt|代表教师网络预测包围框的个数。
因此,一致性损失Lcon为:
Lcon=λ4Lmatch+λ5Lcenter+λ6Lclass+λ7Lsize
其中,λ4,λ5,λ6,λ7为损失函数权重。
上述步骤3)中,将标注数据随机删除网格内的点云,具体为:采用随机删除网格内点的数据增强方法,将真值框进行划分,并随机删除某一网格内的点云。
本实施例中,标注数据的真值框采用以下一种方式进行划分:
第一种划分方式为:沿y轴和z轴将真值框平均划分为K个网格,随机选择一个网格内的点删除;
第二种划分方式为:将真值框划分为中心框和外部框,中心框是指中心点与真值框重合,尺寸为真值框1/N的包围框,外部框为除中心框以外的部分,删除中心框内的点。
对于上述两种删除方式,随机选择一种应用于标注数据,公式化表述为:
α为从[0,1]中均匀抽取的随机变量,Dg代表随机删除平均划分后某一网格内的点,Dc代表删除中心框内的点。
上述步骤3)中,辅助网络的结构与学生网络的结构保持一致,其输入为将标注数据经过随机删除网格的数据。根据辅助网络和学生网络对于中心点的霍夫投票预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失,具体为:
对于真值框g的中心点cg,辅助网络中预测的投票点与其欧式距离为学生网络中预测的投票点与其欧式距离为/>二者预测的投票结果由Smooth L1损失函数Lvc监督:
其中,G为真值框的个数。
上述步骤4)中,将计算得到的所有损失相加作为半监督网络的总体损失,该半监督网络的总体损失函数由预测损失和一致性损失组成:
Ltotal=Lsup+μ1Lcon+μ2Lvc
其中,μ1为权重参数,其值随迭代次数的变化而由0增长至10,具体由sigmoid-shaped方法计算而得,通过损失函数函数训练网络权重,在测试阶段,通过训练得到的权重对测试图片中的目标进行识别与定位,μ2为权重参数。
实施例,本实施例基于霍夫投票的半监督3D目标检测模型SESS,结合本发明提出的随机删除网格内点的数据增强方法、增加辅助网络方法及寻找匹配闭环方法。本实施例采用大型3D室内数据集ScanNet V2(Dai,A.;Chang,A.X.;Savva,M.;Halber,M.;Funkhouser,T.;and Nieβner,M.2017.Scannet:Richly-annotated 3d reconstructionsof indoor scenes.In Proceedings of the IEEE conference on computer vision andpattern recognition),包含18个种类的目标,并含有多种遮挡物体和小物体,具体的实施步骤如下:
1)在本实施例中,输入图像的点云数量不一致,首先将其随机采样至50000个点,将其输入全监督网络VoteNet(Qi,C.R.;Litany,O.;He,K.;and Guibas,L.J.2019.Deephough voting for 3d object detection in point clouds.In proceedings of theIEEE/CVF International Conference on Computer Vision)中进行预训练。
2)将全部点云数据按照1∶9的比例分为标注数据和无标注数据。
3)将2)中的数据进行随机翻转和旋转,随机下采样至20000个点。
4)将2)中的数据随机下采样至20000个点。
5)将2)中的标注数据以随机删除网格内点的方法进行数据增强。具体来说,对于标注数据中的真值框,有两种划分方式,一种为沿着y轴和z轴平均分为4个网格,并随机选择一个网格内的点删除,另一种方式为将其划分为中心网格和外部网格,中心网格是与真值框中心点相一致,尺寸为真值框1/2的网格,外部网格为除中心网格的其余部分,并删除中心网格内的点,以上两种划分方式,网络以随机的概率选择一种进行数据增强。
6)将3)中的数据输入学生网络VoteNet,计算预测损失,其中λ1,λ2,λ_3分别设置为0.5,1.0,0.1。
7)将4)中的数据输入教师网络VoteNet,其训练参数由学生网络通过exponentialmoving average方法计算而得。
8)将5)中的数据输入辅助网络VoteNet,产生投票预测结果。
9)将6)和8)中产生的投票预测结果进行投票一致性监督,通过约束二者投票结果之间的距离,从而提升对于投票中心点的预测性能。
10)将6)和7)产生的预测结果进行匹配,即交替从另一网络预测点集中寻找离本网络当前点最近的点,直至形成一个匹配闭环,进一步约束匹配闭环内点之间的欧式距离,从而以一种更加严格的方法约束教师网络和学生网络预测结果的一致性。进一步,将二者预测结果对齐,计算中心点一致性损失,类别一致性损失及尺寸一致性损失,λ4,λ5,λ6,λ7被分别设置为0.1,1,2,1。
11)根据6)和10)的损失,计算网络的总体损失,μ1在训练阶段的前30个epoch中通过sigmoid-shaped方法由0增长至10,μ1被设置为0.1。
在本实施例中,执行算法的硬件配置:CPU为英特尔i9,GPU为一张内存12G的Geforce 3090;软件配置:计算机操作系统为Ubuntu16.04,CUDA版本为11.0,使用的神经网络框架为Pytorch,版本为0.8。预训练阶段的参数设置为:初始学习率、学习速率的衰减步骤分别设置为0.001,{80,120},{0.1,0.1},180次训练迭代。训练阶段的参数设置为:初始学习率、学习速率的衰减步骤分别设置为0.001,{100,140,180},{0.1,0.1,0.1},220次训练迭代。其它实施例可根据所选用的目标检测方法和数据集,适当调整参数。训练完成之后可得到网络的权重,在测试阶段,输入待图像通过权重对目标进行分类和定位。
综上,本发明可实现对于室内场景的3D目标的检测。
为验证本发明所提方法的有效性和实用性,下面给出在SESS数据集上的一个实例,表格1为实例的在测试集上的检测结果,各类衡量标准为AP(Average Precision),mAP(mean Average Precision)为所有类别平均的AP值。
表1实例的在数据集上的验证效果
如表1所示,增加本发明提出的随机删除网格内点的数据增强方法、增加辅助网络方法及寻找匹配闭环方法之后,SESS模型的检测性能得到极大提升,尤其是对于遮挡物体bookshelf和小物体picture的检测精度大大增加,证明了本发明的有效性。
对如图2和图3所示的可视化结果图以对于定性比较,由SESS漏检的小物体,在加入本发明提出的方法之后,被准确检测到。本发明提出的方法也可以灵活应用于其他半监督3D目标检测网络框架中。
在本发明的一个实施例中,提供一种室内场景下的半监督3D目标检测系统,其包括:
数据获取模块,获取网络的输入图像和标签,通过全监督网络完成预训练,将输入图像的全部点云数据划分为有标注数据和无标注数据;
第一损失计算模块,将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;
第二损失计算模块,将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;
检测模块,将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
上述实施例中,输入学生网络计算预测损失,包括:
学生网络为基于霍夫投票的全监督3D目标检测网络;
预测损失包括投票损失Lv、目标置信度损失Lo、分类损失Lc和定位损失Ls,标注数据的预测损失为:Lsup=Lv+λ1Lo+λ2Lc+λ3Ls,其中,λ1,λ2,λ3代表损失函数的权重。
上述实施例中,教师网络与学生网络结构保持完全一致的网络,其参数由学生网络的参数根据exponential moving average方法计算而得,在第t个迭代步,教师网格的参数更新为:
其中,β为平滑的超参数,Φt-1为在t-1个迭代步时教师网格的参数,为在第t个迭代步时学生网络的参。
上述实施例中,将标注数据随机删除网格内的点云,包括:
采用随机删除网格内点的数据增强方法,将真值框进行划分,并随机删除某一网格内的点云。
上述实施例中,标注数据的真值框采用以下一种方式进行划分:
第一种划分方式为:沿y轴和z轴将真值框平均划分为K个网格,随机选择一个网格内的点删除;
第二种划分方式为:将真值框划分为中心框和外部框,中心框是指中心点与真值框重合,尺寸为真值框1/N的包围框,外部框为除中心框以外的部分,删除中心框内的点。
上述实施例中,计算辅助网络产生预测结果与学生网络的投票一致性损失,包括:
对于真值框g的中心点cg,辅助网络中预测的投票点与其欧式距离为学生网络中预测的投票点与其欧式距离为/>二者预测的投票结果由Smooth L1损失函数Lvc监督:
其中,G为真值框的个数。
上述实施例中,将学生网络和教师网络的预测点进行匹配,计算一致性损失,包括:采用最近点匹配的方式寻找匹配闭环;
计算学生网络和教师网络预测中心点的距离,以学生网络预测点集中索引为i的点为当前点,寻找教师网络中离点i最近的点j;
以j为当前点,在学生网络预测的点集中寻找离点j最近的点,交替寻找对方点集中离当前点最近的点;
在教师网络和学生网络中寻找到的点分别组成点集T至和点集S,直至找到的下一个最近点已经存在于T或S中,形成匹配闭环;
一致性损失包括匹配损失、中心点一致性损失、类别一致性损失及尺寸一致性损失:
分别计算点集T和点集S中点的欧式距离,二者相加作为匹配损失Lmatch;
中心一致性损失由对齐后的教师网络和学生网络中心点的二范数计算得到,对齐是指在对方网络中找到的离本网络预测点最近的点;
类别一致性损失由对齐后点对的KL散度计算得到;
尺寸一致性损失由对齐点对之间的MSE损失计算得到。
本实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
在本发明一实施例中提供的计算设备,该计算设备可以是终端,其可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序,该计算机程序被处理器执行时以实现上述各实施例中的方法;该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏,该输入装置可以是显示屏上覆盖的触摸层,也可以是计算设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的一个实施例中,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
在本发明的一个实施例中,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种室内场景下的半监督3D目标检测方法,其特征在于,包括:
获取网络的输入图像和标签,通过全监督网络完成预训练,将输入图像的全部点云数据划分为有标注数据和无标注数据;
将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;
将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;
将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
2.如权利要求1所述室内场景下的半监督3D目标检测方法,其特征在于,输入学生网络计算预测损失,包括:
学生网络为基于霍夫投票的全监督3D目标检测网络;
预测损失包括投票损失Lv、目标置信度损失Lo、分类损失Lc和定位损失Ls,标注数据的预测损失为:Lsup=Lv+λ1Lo+λ2Lc+λ3Ls,其中,λ1,λ2,λ3代表损失函数的权重。
3.如权利要求1所述室内场景下的半监督3D目标检测方法,其特征在于,教师网络与学生网络结构保持完全一致的网络,其参数由学生网络的参数根据exponential movingaverage方法计算而得,在第t个迭代步,教师网格的参数更新为:
其中,β为平滑的超参数,Φt-1为在t-1个迭代步时教师网格的参数,为在第t个迭代步时学生网络的参数。
4.如权利要求1所述室内场景下的半监督3D目标检测方法,其特征在于,将标注数据随机删除网格内的点云,包括:
采用随机删除网格内点的数据增强方法,将真值框进行划分,并随机删除某一网格内的点云。
5.如权利要求4所述室内场景下的半监督3D目标检测方法,其特征在于,标注数据的真值框采用以下一种方式进行划分:
第一种划分方式为:沿y轴和z轴将真值框平均划分为K个网格,随机选择一个网格内的点删除;
第二种划分方式为:将真值框划分为中心框和外部框,中心框是指中心点与真值框重合,尺寸为真值框1/N的包围框,外部框为除中心框以外的部分,删除中心框内的点。
6.如权利要求1所述室内场景下的半监督3D目标检测方法,其特征在于,计算辅助网络产生预测结果与学生网络的投票一致性损失,包括:
对于真值框g的中心点cg,辅助网络中预测的投票点与其欧式距离为学生网络中预测的投票点与其欧式距离为/>二者预测的投票结果由Smooth L1损失函数Lvc监督:
其中,G为真值框的个数。
7.如权利要求1所述室内场景下的半监督3D目标检测方法,其特征在于,将学生网络和教师网络的预测点进行匹配,计算一致性损失,包括:采用最近点匹配的方式寻找匹配闭环;
计算学生网络和教师网络预测中心点的距离,以学生网络预测点集中索引为i的点为当前点,寻找教师网络中离点i最近的点j;
以j为当前点,在学生网络预测的点集中寻找离点j最近的点,交替寻找对方点集中离当前点最近的点;
在教师网络和学生网络中寻找到的点分别组成点集T和点集S,直至找到的下一个最近点已经存在于T或S中,形成匹配闭环;
一致性损失包括匹配损失、中心点一致性损失、类别一致性损失及尺寸一致性损失:
分别计算点集T和点集S中点的欧式距离,二者相加作为匹配损失Lmatch;
中心一致性损失由对齐后的教师网络和学生网络中心点的二范数计算得到,对齐是指在对方网络中找到的离本网络预测点最近的点;
类别一致性损失由对齐后点对的KL散度计算得到;
尺寸一致性损失由对齐点对之间的MSE损失计算得到。
8.一种室内场景下的半监督3D目标检测系统,其特征在于,包括:
数据获取模块,获取网络的输入图像和标签,通过全监督网络完成预训练,将输入图像的全部点云数据划分为有标注数据和无标注数据;
第一损失计算模块,将全部点云数据依次进行随机下采样、随机翻转和随机旋转后,输入学生网络计算预测损失,同时将全部点云数据仅进行随机下采样后输入教师网络,将学生网络和教师网络的预测点进行匹配,计算一致性损失;
第二损失计算模块,将标注数据随机删除网格内的点云,进行随机下采样后,输入增加的辅助网络产生预测结果,计算辅助网络产生预测结果与学生网络的投票一致性损失;
检测模块,将计算得到的所有损失相加作为半监督网络的总体损失,输入待检测的目标图像,通过训练得到的权重,标出目标的定位框以及分类。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至7所述方法中的任一方法。
10.一种计算设备,其特征在于,包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311619574.2A CN117671239A (zh) | 2023-11-30 | 2023-11-30 | 室内场景下的半监督3d目标检测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311619574.2A CN117671239A (zh) | 2023-11-30 | 2023-11-30 | 室内场景下的半监督3d目标检测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671239A true CN117671239A (zh) | 2024-03-08 |
Family
ID=90063366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311619574.2A Pending CN117671239A (zh) | 2023-11-30 | 2023-11-30 | 室内场景下的半监督3d目标检测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671239A (zh) |
-
2023
- 2023-11-30 CN CN202311619574.2A patent/CN117671239A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | An edge traffic flow detection scheme based on deep learning in an intelligent transportation system | |
US10950271B1 (en) | Method for triggering events in a video | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
US10452893B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
CN111241989B (zh) | 图像识别方法及装置、电子设备 | |
US20210158023A1 (en) | System and Method for Generating Image Landmarks | |
CN110633745A (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN113095333B (zh) | 无监督特征点检测方法及装置 | |
KR20220076398A (ko) | Ar장치를 위한 객체 인식 처리 장치 및 방법 | |
CN109165654B (zh) | 一种目标定位模型的训练方法和目标定位方法及装置 | |
CN112528811A (zh) | 行为识别方法和装置 | |
CN113762049B (zh) | 内容识别方法、装置、存储介质和终端设备 | |
CN112232294A (zh) | 一种超参数优化、目标识别模型训练、目标识别方法及装置 | |
CN114333038B (zh) | 对象识别模型的训练方法和对象识别方法、装置、设备 | |
CN117671239A (zh) | 室内场景下的半监督3d目标检测方法、系统及存储介质 | |
Wei et al. | Learning and exploiting interclass visual correlations for medical image classification | |
Tanaka et al. | Practical approach to evacuation planning via network flow and deep learning | |
CN114549857A (zh) | 图像信息识别方法、装置、计算机设备和存储介质 | |
Wang et al. | SIRN: An iterative reasoning network for transmission lines based on scene prior knowledge | |
CN114677611A (zh) | 数据识别方法、存储介质及设备 | |
Sun et al. | Real-time memory efficient large-pose face alignment via deep evolutionary network | |
CN113129332A (zh) | 执行目标对象跟踪的方法和装置 | |
Xiao et al. | Deep multi-scale learning on point sets for 3D object recognition | |
Li et al. | Siamese global location-aware network for visual object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |