CN113536920A - 一种半监督三维点云目标检测方法 - Google Patents

一种半监督三维点云目标检测方法 Download PDF

Info

Publication number
CN113536920A
CN113536920A CN202110652497.5A CN202110652497A CN113536920A CN 113536920 A CN113536920 A CN 113536920A CN 202110652497 A CN202110652497 A CN 202110652497A CN 113536920 A CN113536920 A CN 113536920A
Authority
CN
China
Prior art keywords
model
student
network
teacher
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110652497.5A
Other languages
English (en)
Other versions
CN113536920B (zh
Inventor
宋梁
曾新华
李蓝建
张冠华
蒋林华
胡兴
商慧亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110652497.5A priority Critical patent/CN113536920B/zh
Publication of CN113536920A publication Critical patent/CN113536920A/zh
Application granted granted Critical
Publication of CN113536920B publication Critical patent/CN113536920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种半监督三维点云目标检测方法。其包括如下步骤:(1)对输入教师模型和学生模型的点云进行随机下采样,教师模型的随机下采样数据作为教师模型的输入;(2)将学生模型的随机下采样数据经过随机变换,作为学生模型的输入;(3)训练学生模型时使用标签数据同步训练教师模型,每一次迭代后将训练好的学生模型作为教师模型进一步训练,通过教师网络对无标签的数据进行挖掘,得到伪标签用于指导学生网络的学习,获得三维点云目标检测结果。本发明可以减少三维目标检测深度学习模型对数据标签的依赖,降低数据标注的成本;使用部分标签就达到同样模型使用100%标签的精度;本实验模型泛化能力强,能够用到多种深度学习模型中。

Description

一种半监督三维点云目标检测方法
技术领域
本发明涉及一种半监督三维点云目标检测方法,涉及深度学习技术领域。
背景技术
随着多线激光雷达传感器价格的逐年下降,基于车载激光雷达进行汽车外界环境感知成为实现汽车无人驾驶的主流技术方案,同时也是汽车无人驾驶领域的关键技术和研究热点。基于激光雷达实现车外环境信息的感知就是在汽车行驶过程中通过车载激光雷达准确地估计出车外不同三维目标的类别和位置,即分类和定位。
目前的三维目标检测算法按照模型的输入可以分为:基于单目视觉的三维目标检测算法、基于体素的三维目标检测算法、基于原始点云的三维目标检测算法。
基于单目视觉的深度计算方法大致可以分为两类:1)基于卷积神经网络的深度估计;2)基于几何特征与成像原理的深度转换。但是目前基于单目视觉的深度估计本身也是视觉算法领域的研究热点和挑战,其估计精度远远没有达到实际应用的标准,因此基于该类方法的三维目标检测算法的检测精度往往较低。而基于几何特征的深度估计则只能针对特定种类目标,无法实现多类目标的高精度检测,对实验数据具有较高的要求。另外针对小尺寸目标的检测效果较差,适用于视野范围较小的场景。
基于体素的三维目标检测首先将三维点云体素化成三维网格或者体素表示。体素化的优点是体素这种表示形式保留了点云的形状信息,并且可以直接由于于三维卷积神经网络。然而由于三维点云的稀疏性和不规则性,体素化的方法会产生大量的空体素,在进行三维卷积时会产生非常多的空卷积,造成计算资源的浪费。
基于原始点云的三维目标检测算法,使用点云作为深度学习模型的输入。点云是点坐标的无序集合。由于传统的卷积神经网络需要高度规则的输入数据格式,由于点云的不规则特性,大多数研究者将点云转换为规则的3D体素网格或将其投影为图像进行学习。然而,在这种预处理过程中,空间信息往往会在一定程度上丢失。现在多使用可以处理点云数据的PointNet提取点云的特征,进而预测出目标的位置和大小。
综上所述,现有技术存在以下缺点:①过度依赖三维数据标注;②基于单目视觉的方法检精度低;③基于体素的三维标注计算量大;④标签的获取成本高;
发明内容
本发明旨在克服现有技术的不足,本发明利用了知识蒸馏的方法,以现有的基于点云的三维目标检测算法为基础模型,提出了三个一致性损失函数,使得模型能够使用无标签的点云数据进行学习,提高模型的准确率。
本发明提供一种半监督三维点云目标检测方法,包括以下步骤:
(1)对输入教师模型的点云和输入学生模型的点云进行随机的下采样,教师模型的点云直接作为教师模型的输入;
(2)将学生模型的随机下采样数据经过随机变换,作为学生模型的输入;随机变换包括翻转、旋转和缩放;
(3)在训练学生模型时使用标签数据同步训练教师模型,每一次迭代之后将训练好的学生模型作为教师模型进行进一步的训练,通过教师网络对无标签的数据进行挖掘,得到伪标签用于指导学生网络的学习,最后输出训练好的学生模型,获得三维点云目标检测结果;学生模型的总损失函数为:
L=λ1Lsupervised2Lhint3Lconsistency
其中Lsupervised为标签数据的监督损失,无标签数据作为网络输入时无此损失,Lhint为隐藏层损失,Lconsistency为学生模型和教师模型输出得到的预测结果的一致性损失,λ1、λ2和λ3为控制这三个损失函数比例的超参数;
教师模型和学生模型均是PointRCNN模型,其检测流程如下:
第一阶段:利用PointNet++作为主干网络进行特征的提取,并对每个点进行分类,得到前景点和背景点的分割结果;添加一个head用来输出3D proposals,训练语义分割任务的时候,采用了focal loss;而对于bbox回归,将这个问题看成分类问题,沿着X,Z轴,打一定的格子,预测中心点是否在格子内部,同时预测一个res部分;在训练阶段,采用0.85的threshold作为nms的阈值,保留其中300个proposal,在测试的阶段仅仅保留100个进入到第二阶段;
第二阶段:利用得到的proposal,扩大一定的大小,获得更大的上下文信息,然后将相应的点的原始特征还有分割任务提取的特征进行融合;接着利用正交变换,转换到每个proposal的local坐标系,其中坐标系的中心点是proposal的center,X,Z轴平行于地面,X轴指向proposal的heading方向,这样的方式更有利于local特征的学习,同时学习的方式跟第一步一样,也是利用bin的方式,把回归问题转化成分类的问题。
本发明中,步骤(2)中,随机变换的参数包括
Figure BDA0003111523860000031
其中
Figure BDA0003111523860000032
表示以x为对称轴进行翻转的二进制参数,其值由下式得到:
Figure BDA0003111523860000033
其中∈是[0,1]区间内的随机生成数;同理
Figure BDA0003111523860000034
表示以y为对称轴进行翻转的二进制参数;
Figure BDA0003111523860000035
表示以z轴为旋转轴的旋转矩阵参数;
Figure BDA0003111523860000036
其中ω是旋转的角度,其值为[-Π/2,Π/2]之间;
Figure BDA0003111523860000037
为缩放系数,其值为[0.90,1.10]之间。
本发明中,步骤(3)中,学生模型和教师模型输出得到的预测结果的一致性损失Lconsistency通过下式计算得到:
Figure BDA0003111523860000038
其中:
Figure BDA0003111523860000039
为中心一致性损失,
Figure BDA00031115238600000310
是分类一致性损失,
Figure BDA00031115238600000311
是边界框一致性损失;
设Cs={cs}表示学生网络输出得到的检测框的中心点,Ct={ct}表示教师网络输出的检测框中心点;由于学生网络的输入点云经过了随机变换,其检测到的检测框的中心点的坐标和教师网络检测到的检测框中心点不在同一坐标系上,需要将学生网络的中心点进行相应的逆变换转换到教师网络的坐标系上,设
Figure BDA00031115238600000312
为学生网络转换后的中心点坐标,采用
Figure BDA00031115238600000313
到Ct的最小欧式距离将其一一对应起来:
Figure BDA00031115238600000314
Figure BDA00031115238600000315
其中
Figure BDA00031115238600000316
表示对齐后的学生网络的中心点坐标,同理
Figure BDA00031115238600000317
表示教师网络输出的中心点对齐后的坐标,中心一致性损失
Figure BDA00031115238600000318
为下述函数:
Figure BDA00031115238600000319
Figure BDA00031115238600000320
为学生网络得到的分类结果,
Figure BDA00031115238600000321
为教师网络的分类结果,根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果,将
Figure BDA00031115238600000322
转换为
Figure BDA00031115238600000323
分类一致性损失
Figure BDA00031115238600000324
Figure BDA00031115238600000325
Figure BDA00031115238600000326
的KL散度:
Figure BDA0003111523860000041
同样的设
Figure BDA0003111523860000042
为学生模型的边界框参数,
Figure BDA0003111523860000043
为教师模型的边界框参数,根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果,将学生网络的边界框参数转换为
Figure BDA0003111523860000044
所以边界框一致性损失函数
Figure BDA0003111523860000045
为以下公式:
Figure BDA0003111523860000046
和现有技术相比,本发明的有益效果在于:
①本发明可以减少三维目标检测深度学习模型对数据标签的依赖,降低数据标注的成本。
②本发明使用部分的标签就能达到同样模型使用100%标签的精度。
③本实验模型泛化能力强,能够使用到多种深度学习模型中。
附图说明
图1为本发明的半监督三维目标检测方法的流程图。
图2为本发明的方法的数据处理方式。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细阐述。
图1为本发明的流程图。教师模型和学生模型采取相同的模型,这里使用模型是PointRCNN。解决方案中,教师模型由未经过数据增强的标签数据训练得到,教师模型的模型损失为监督学习损失。教师模型的训练在训练学生模型时使用标签数据同步训练教师模型,每一次迭代之后将训练好的学生模型作为教师模型进行进一步的训练。通过教师网络对无标签的数据进行挖掘,得到伪标签用于指导学生网络的学习。对于学生模型来说,其数据输入将会通过数据增强引入噪声,在模型层面上会进行随机深度和节点的丢弃,使得在训练过程中学生模型相对于教师模型来说参数更少降低学生模型的学习能力。图1中xU表示无标签数据,xL表示标签数据,xU和xL经过不同的数据增强方式(随机旋转、随机下采样、随机截取和随机缩放等),得到了学生模型的输入数据
Figure BDA0003111523860000047
和教师模型的输入数据
Figure BDA0003111523860000048
由于数据增强操作会改变物体点云的位置和旋转角等,标签数据的数据标签yL需要经过同样的变换得到
Figure BDA0003111523860000049
Figure BDA00031115238600000410
Figure BDA00031115238600000411
输入到学生模型中得到网络输出为
Figure BDA00031115238600000412
Figure BDA00031115238600000413
Figure BDA00031115238600000414
Figure BDA0003111523860000051
输入到教师网络得到输出为
Figure BDA0003111523860000052
Figure BDA0003111523860000053
由于教师网络和学生网络的数据输入经过了不同的数据增强,为了使用教师网络的预测指导学生网络需要将教师网络的预测结果转换到学生网络输入的坐标系上,将
Figure BDA0003111523860000054
Figure BDA0003111523860000055
转换为
Figure BDA0003111523860000056
Figure BDA0003111523860000057
下面将详细介绍数据处理的方式(图2)
(1)随机下采样
对输入教师模型的点云和输入学生模型的点云进行随机的下采样,这样得到的两幅点云图像在局部可能差异较大,但是从全局上看两幅点云图像仍然是同一场景,对于网络来说提取到的全局特征应该是一样,下文中的一致性损失函数的设计也是为了使得网络又能够对抗这种干扰能力而设计的。
(2)随机变换
随机变换包括了:翻转、旋转和缩放。将学生网络的随机下采样模型进行上述的转换得到新的点云图像,作为学生模型的输入。随机转换的参数包括了:
Figure BDA0003111523860000058
其中
Figure BDA0003111523860000059
表示以x为对称轴进行翻转的二进制参数,其值由下式得到:
Figure BDA00031115238600000510
其中∈是[0,1]区间内的随机生成数。同理
Figure BDA00031115238600000511
表示以y为对称轴进行翻转的二进制参数。
Figure BDA00031115238600000512
表示以z轴为旋转轴的旋转矩阵参数。
Figure BDA00031115238600000513
其中ω是旋转的角度,其值为[-Π/2,Π/2]之间。
最后
Figure BDA00031115238600000514
为缩放系数,其值为[0.90,1.10]之间。
下面将介绍鼓励学生模型和教师模型输出得到的预测结果尽量一致的一致性损失函数:
(1)中心一致性损失
设Cs={cs}表示学生网络输出得到的检测框的中心点,Ct={ct}表示教师网络输出的检测框中心点。由于学生网络的输入点云经过了随机变换,其检测到的检测框的中心点的坐标和教师网络检测到的检测框中心点不在同一坐标系上,需要将学生网络的中心点进行相应的逆变换转换到教师网络的坐标系上。设
Figure BDA00031115238600000515
为学生网络转换后的中心点坐标。由于学生网络和教师网络输出得到的检测框数量可能不一致,即
Figure BDA0003111523860000061
和Ct数量上可能不一致并且不是一一对应的,所以采用
Figure BDA0003111523860000062
到Ct的最小欧式距离将其一一对应起来。
Figure BDA0003111523860000063
Figure BDA0003111523860000064
其中
Figure BDA0003111523860000065
表示对齐后的学生网络的中心点坐标,同理
Figure BDA0003111523860000066
表示教师网络输出的中心点对齐后的坐标,中心一致性损失为下述函数:
Figure BDA0003111523860000067
(2)分类一致性损失
Figure BDA0003111523860000068
为学生网络得到的分类结果,
Figure BDA0003111523860000069
为教师网络的分类结果。根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果,可以将
Figure BDA00031115238600000610
转换为
Figure BDA00031115238600000611
分类一致性损失为
Figure BDA00031115238600000612
Figure BDA00031115238600000613
的KL散度:
Figure BDA00031115238600000614
(3)边界框一致性损失
同样的设
Figure BDA00031115238600000615
为学生模型的边界框参数,
Figure BDA00031115238600000616
为教师模型的边界框参数。根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果,可以将学生网络的边界框参数转换为
Figure BDA00031115238600000617
所以边界框一致性损失函数为以下公式:
Figure BDA00031115238600000618
总的一致性损失为三者之和:
Figure BDA00031115238600000619
教师模型中间层提取到的特征用于指导学生网络的学习。学生网络可以在基于特征层的蒸馏学习获取更多的信息以提高性能。这种学习方式被称为Hint Learning。总的来说,这类学习的目标损失函数为:
Lhint(FT,FS)=D(TFt(FT),TFS(FS))
其中FT为教师网络的提取到的特征,FS为学生网络提取到的特征。因为知识蒸馏教师网络和学生网络的模型结构大多是不一致的,FT和FS特征图维度可能会不一致,所以使用了TFt和TFS这两个转换函数将其维度调节一致。D(·)为距离函数,这里采用欧氏距离。受到这类思想的启发所以学生模型的损失由两部分组成:(1)学生模型和教师模型中间特征层提取到的特征的一致性损失(2)学生模型和教师模型输出得到的预测结果的一致性损失。学生模型的总损失函数为:
L=λ1Lsupervised2Lhint3Lconsistency
其中Lsupervised为标签数据的监督损失,无标签数据作为网络输入时无此损失,Lhint为隐藏层损失,Lconsistency为学生模型的输出
Figure BDA0003111523860000071
Figure BDA0003111523860000072
Figure BDA0003111523860000073
的一致性损失。λ1、λ2和λ3为控制这三个损失函数比例的超参数。
检测模型采用了PointRCNN,其检测流程如下:
Stage 1:利用PointNet++作为主干网络进行特征的提取,并对每个点进行分类,得到前景点和背景点的分割结果。
本发明利用pointnet++作为backbone进行特征的提取,得到前景点背景点的分割结果,除此之外,本发明还额外添加了一个head用来输出3D proposals,这种方式经过试验得到的recall比anchor based的方法更高。训练semantic segmentation任务的时候,本发明采用了focalloss因为在点云中,前景点与背景点的分布是极度不均衡的。
而对于bbox regression的话,本发明把这个问题看成了分类问题,沿着X,Z轴,打了一定的格子,预测中心点是否在格子内部,同时本发明还预测了一个res部分。
在training阶段,本发明采用了0.85的threshold作为nms的阈值,保留其中300个proposal,在测试的阶段仅仅保留100个进入到第二个stage。
Stage 2:利用得到的proposal,稍微扩大一定的大小,获得更大的context信息,然后将相应的点的原始特征还有segmentation task提取的特征进行融合。
接着本发明利用Canonical Transformation(正交变换),转换到每个proposal的local坐标系,其中坐标系的中心点是proposal的center,X,Z轴平行于地面,X轴指向proposal的heading方向,这样的方式更有利于local特征的学习,同时学习的方式跟stageone一样,也是利用bin的方式,把回归问题转化成分类的问题。

Claims (3)

1.一种半监督三维点云目标检测方法,其特征在于,包括以下步骤:
(1)对输入教师模型的点云和输入学生模型的点云进行随机的下采样,教师模型的点云直接作为教师模型的输入;
(2)将学生模型的随机下采样数据经过随机变换,作为学生模型的输入;随机变换包括翻转、旋转和缩放;
(3)在训练学生模型时使用标签数据同步训练教师模型,每一次迭代之后将训练好的学生模型作为教师模型进行进一步的训练,通过教师网络对无标签的数据进行挖掘,得到伪标签用于指导学生网络的学习,最后输出训练好的学生模型,获得三维点云目标检测结果;学生模型的总损失函数为:
L=λ1Lsupervised+λ2Lhint3Lconsistency
其中Lsupervised为标签数据的监督损失,无标签数据作为网络输入时无此损失,Lhint为隐藏层损失,Lconsistency为学生模型和教师模型输出得到的预测结果的一致性损失,λ1、λ2和λ3为控制这三个损失函数比例的超参数;
学生模型和教师模型采用了PointRCNN,其检测流程如下:
第一阶段:利用PointNet++作为主干网络进行特征的提取,并对每个点进行分类,得到前景点和背景点的分割结果;添加一个head用来输出3D proposals,训练语义分割任务的时候,采用了focal loss;而对于bbox回归,将这个问题看成分类问题,沿着X,Z轴,打一定的格子,预测中心点是否在格子内部,同时预测一个res部分;在训练阶段,采用0.85的threshold作为nms的阈值,保留其中300个proposal,在测试的阶段仅仅保留100个进入到第二阶段;
第二阶段:利用得到的proposal,扩大一定的大小,获得更大的上下文信息,然后将相应的点的原始特征还有分割任务提取的特征进行融合;接着利用正交变换,转换到每个proposal的local坐标系,其中坐标系的中心点是proposal的center,X,Z轴平行于地面,X轴指向proposal的heading方向,这样的方式更有利于local特征的学习,同时学习的方式跟第一步一样,也是利用bin的方式,把回归问题转化成分类的问题。
2.根据权利要求1所述的目标检测方法,其特征在于,步骤(2)中,随机变换的参数包括
Figure FDA0003111523850000011
其中
Figure FDA0003111523850000012
表示以x为对称轴进行翻转的二进制参数,其值由下式得到:
Figure FDA0003111523850000013
其中∈是[0,1]区间内的随机生成数;同理
Figure FDA0003111523850000014
表示以y为对称轴进行翻转的二进制参数;
Figure FDA0003111523850000015
表示以z轴为旋转轴的旋转矩阵参数;
Figure FDA0003111523850000021
其中ω是旋转的角度,其值为[-Π/2,Π/2]之间;
Figure FDA0003111523850000022
为缩放系数,其值为[0.90,1.10]之间。
3.根据权利要求1所述的目标检测方法,其特征在于,步骤(3)中,学生模型和教师模型输出得到的预测结果的一致性损失Lconsistency通过下式计算得到:
Figure FDA0003111523850000023
其中:
Figure FDA0003111523850000024
为中心一致性损失,
Figure FDA0003111523850000025
是分类一致性损失,
Figure FDA0003111523850000026
是边界框一致性损失;
设Cs={cs}表示学生网络输出得到的检测框的中心点,Ct={ct}表示教师网络输出的检测框中心点;由于学生网络的输入点云经过了随机变换,其检测到的检测框的中心点的坐标和教师网络检测到的检测框中心点不在同一坐标系上,需要将学生网络的中心点进行相应的逆变换转换到教师网络的坐标系上,设
Figure FDA0003111523850000027
为学生网络转换后的中心点坐标,采用
Figure FDA0003111523850000028
到Ct的最小欧式距离将其一一对应起来:
Figure FDA0003111523850000029
Figure FDA00031115238500000210
其中
Figure FDA00031115238500000211
表示对齐后的学生网络的中心点坐标,同理
Figure FDA00031115238500000212
表示教师网络输出的中心点对齐后的坐标,中心一致性损失
Figure FDA00031115238500000213
为下述函数:
Figure FDA00031115238500000214
Figure FDA00031115238500000215
为学生网络得到的分类结果,
Figure FDA00031115238500000216
为教师网络的分类结果,根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果,将
Figure FDA00031115238500000217
转换为
Figure FDA00031115238500000218
分类一致性损失
Figure FDA00031115238500000219
Figure FDA00031115238500000220
Figure FDA00031115238500000221
的KL散度:
Figure FDA00031115238500000222
同样的设
Figure FDA00031115238500000223
为学生模型的边界框参数,
Figure FDA00031115238500000224
为教师模型的边界框参数,根据学生网络得到的检测框中心和教师网络的检测框中心的对齐结果,将学生网络的边界框参数转换为
Figure FDA00031115238500000225
所以边界框一致性损失函数
Figure FDA00031115238500000226
为以下公式:
Figure FDA00031115238500000227
CN202110652497.5A 2021-06-11 2021-06-11 一种半监督三维点云目标检测方法 Active CN113536920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110652497.5A CN113536920B (zh) 2021-06-11 2021-06-11 一种半监督三维点云目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110652497.5A CN113536920B (zh) 2021-06-11 2021-06-11 一种半监督三维点云目标检测方法

Publications (2)

Publication Number Publication Date
CN113536920A true CN113536920A (zh) 2021-10-22
CN113536920B CN113536920B (zh) 2022-06-17

Family

ID=78095878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110652497.5A Active CN113536920B (zh) 2021-06-11 2021-06-11 一种半监督三维点云目标检测方法

Country Status (1)

Country Link
CN (1) CN113536920B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN115082690A (zh) * 2022-07-12 2022-09-20 北京百度网讯科技有限公司 目标识别方法、目标识别模型训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814816A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种目标检测方法、装置及其存储介质
CN112052818A (zh) * 2020-09-15 2020-12-08 浙江智慧视频安防创新中心有限公司 无监督域适应的行人检测方法、系统及存储介质
CN112200318A (zh) * 2020-10-10 2021-01-08 广州云从人工智能技术有限公司 一种目标检测方法、装置、机器可读介质及设备
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112801212A (zh) * 2021-03-02 2021-05-14 东南大学 一种基于小样本半监督学习的白细胞分类计数方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814816A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种目标检测方法、装置及其存储介质
CN112052818A (zh) * 2020-09-15 2020-12-08 浙江智慧视频安防创新中心有限公司 无监督域适应的行人检测方法、系统及存储介质
CN112200318A (zh) * 2020-10-10 2021-01-08 广州云从人工智能技术有限公司 一种目标检测方法、装置、机器可读介质及设备
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112801212A (zh) * 2021-03-02 2021-05-14 东南大学 一种基于小样本半监督学习的白细胞分类计数方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOBIN CHEN ET AL.: "Learning Efficient Object Detection Models with Knowledge Distillation", 《31ST ANNUAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS)》 *
SHAOSHUAI SHI ET AL.: "PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud", 《ARXIV:1812.04244V2》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581350A (zh) * 2022-02-23 2022-06-03 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN114581350B (zh) * 2022-02-23 2022-11-04 清华大学 一种适用于单目3d目标检测任务的半监督学习方法
CN115082690A (zh) * 2022-07-12 2022-09-20 北京百度网讯科技有限公司 目标识别方法、目标识别模型训练方法及装置

Also Published As

Publication number Publication date
CN113536920B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN111832655B (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN109635685A (zh) 目标对象3d检测方法、装置、介质及设备
CN113536920B (zh) 一种半监督三维点云目标检测方法
CN112347987A (zh) 一种多模数据融合的三维目标检测方法
CN112699806A (zh) 一种基于三维热图的三维点云目标检测方法和装置
US11544898B2 (en) Method, computer device and storage medium for real-time urban scene reconstruction
CN116783620A (zh) 根据点云的高效三维对象检测
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
CN114120115A (zh) 一种融合点特征和网格特征的点云目标检测方法
CN115147798A (zh) 可行驶区域预测方法、模型、装置及车辆
Li et al. Vehicle object detection based on rgb-camera and radar sensor fusion
Rao et al. In-vehicle object-level 3D reconstruction of traffic scenes
CN114943870A (zh) 线特征提取模型的训练方法及装置、点云匹配方法及装置
Meng et al. Multi‐vehicle multi‐sensor occupancy grid map fusion in vehicular networks
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
CN116503602A (zh) 基于多层级边缘增强的非结构化环境三维点云语义分割方法
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法
Elhadidy et al. Improved semantic segmentation of low-resolution 3d point clouds using supervised domain adaptation
Zhou et al. Diffusion-based 3D object detection with random boxes
Ding et al. Animation design of multisensor data fusion based on optimized AVOD algorithm
Ansari et al. Angle-based feature learning in GNN for 3D object detection using point cloud
Saleh et al. Perception of 3D scene based on depth estimation and point-cloud generation
US20240135195A1 (en) Efficient search for data augmentation policies
Zhang et al. Road segmentation using point cloud BEV based on fully convolution network
Babolhavaeji et al. Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation Estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant