CN115841574A - 域适应的激光雷达点云语义分割方法、设备及存储介质 - Google Patents
域适应的激光雷达点云语义分割方法、设备及存储介质 Download PDFInfo
- Publication number
- CN115841574A CN115841574A CN202211632205.2A CN202211632205A CN115841574A CN 115841574 A CN115841574 A CN 115841574A CN 202211632205 A CN202211632205 A CN 202211632205A CN 115841574 A CN115841574 A CN 115841574A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- network model
- cloud data
- segmentation network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
Abstract
本发明公开了一种域适应的激光雷达点云语义分割方法、设备及存储介质,方法包括:步骤1,通过目标域模拟采样数据对齐方式初步训练激光雷达点云语义分割网络模型,基于初步训练的激光雷达点云语义分割网络模型通过场景混合和伪标签修正结合的方式训练激光雷达点云语义分割网络模型,得到训练好的激光雷达点云语义分割网络模型;步骤2,通过训练好的激光雷达点云语义分割网络模型对目标域点云数据进行语义分割,得出目标域点云数据的语义分割结果。该方法使得在完全没有或仅有少量目标场景数据标注的情况下完成对激光雷达点云语义分割网络模型的训练,实现对目标域激光雷达点云数据进行语义分割。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种域适应的激光雷达点云语义分割方法。
背景技术
点云语义分割是计算机视觉领域中的一个基本任务,在机器人和自动化领域中应用广泛。而激光雷达点云语义分割对于自动驾驶的场景理解具有重要意义。为了解决这个问题,目前许多方法使用人工标注的点云数据来有监督地训练深度神经网络模型,如:文献:B.Wu,et al.,“SqueezeSeg:Convolutional neural nets with recurrent CRF forreal-time road-object segmentation from 3D LiDAR point cloud”,in ICRA,2018;Y.Zhang,et al.,“PolarNet:An improved grid representation for online LiDARpoint clouds semantic segmentation”,in CVPR,2020;X.Zhu,etal.,“Cylindrical andasymmetrical 3D convolution networks for LiDAR segmentation”,in CVPR,2021等公开的方法,在测试阶段使用训练好的模型对采集到的激光雷达点云进行语义分割。但是这种全监督的深度学习方法依赖于成本高昂的有限人工标注训练数据,而实际应用场景的变化(包括传感器和场景内容变化)可能导致测试阶段的点云数据和训练阶段的点云数据在数据特性方面存在较大差异,最终导致在目标域点云数据上的语义分割测试结果较差。近年来,无监督域适应的语义分割方法,如文献:S.Zhao,et al.,“ePointDA:An end-to-endsimulation-to-real domain adaptation framework for LiDAR point cloudsegmentation”,in AAAI,2021;L.Yi,et al.,“Complete&label:A domain adaptationapproach to semantic segmentation of LiDAR point clouds”,in CVPR,2021等公开的方法被广泛关注,此类方法利用现有的已标注的源域激光雷达点云数据(可简称为源域点云数据)和未标注的目标场景的目标域激光雷达点云数据(可简称为目标域点云数据)训练深度神经网络模型,提高深度神经网络模型在目标域点云数据上的测试结果。这种方法不需要人工重新标注数据,降低了实际应用成本,但由于缺乏准确的指导信息,目前在激光雷达点云语义分割上的效果还远不能满足实际需要。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供了一种域适应的激光雷达点云语义分割方法、设备及存储介质,能在无监督或半监督条件下对目标域激光雷达点云数据进行准确的语义分割,满足实际场景的需求,进而解决现有技术中存在的上述技术问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种域适应的激光雷达点云语义分割方法,包括:
步骤1,通过目标域模拟采样数据对齐方式初步训练激光雷达点云语义分割网络模型,基于初步训练的激光雷达点云语义分割网络模型通过场景混合和伪标签修正结合的方式训练激光雷达点云语义分割网络模型,得到训练好的激光雷达点云语义分割网络模型;
步骤2,通过训练好的激光雷达点云语义分割网络模型对目标域点云数据进行语义分割,得出目标域点云数据的语义分割结果。
本发明实施方式还提供一种处理设备,包括:
至少一个存储器,用于存储一个或多个程序;
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现本发明所述的方法。
本发明实施例进一步提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现本发明所述的方法。
与现有技术相比,本发明所提供的域适应的激光雷达点云语义分割方法、设备及存储介质,其有益效果包括:
通过目标域模拟采样数据对齐方式先初步训练激光雷达点云语义分割网络模型,获取符合目标域采样模式的源域模拟采样点云数据来训练激光雷达点云语义分割网络模型,能减小训练数据与实际分割的目标域点云数据在空间特性上的差别,尤其是传感器线数不同造成的点云密度差异,降低了对激光雷达点云语义分割网络模型的影响;通过场景混合和伪标签修正结合方式来训练激光雷达点云语义分割网络模型,能够降低伪标签偏差和噪声对模型训练造成的干扰;本发明方法可以在完全没有或仅有少量目标域点云数据标注的情况下完成激光雷达点云语义分割网络模型的训练,对目标场景的目标域点云数据进行准确语义分割。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的域适应的激光雷达点云语义分割方法的流程图。
图2为本发明实施例提供的语义分割方法的单帧点云与多帧融合点云对比图;其中,(a)为单帧点云图,(b)为多帧融合点云图;
图3为本发明实施例提供的域适应激光雷达点云语义分割方法的原始源域点云数据与模拟目标域采样的源域模拟采样点云数据对比图;其中,(a)为原始源域点云数据示意图,(b)为模拟目标域采样模式的源域模拟采样点云数据示意图。
图4为本发明实施例提供的语义分割方法的基于模拟扫描的数据对齐训练框架示意图;
图5为本发明实施例提供的语义分割方法的基于场景混合和伪标签修正的自训练框架示意图。
图6为本发明实施例提供的语义分割方法的场景混合的点云数据示意图;其中,(a)为源域模拟采样点云数据的真实标签示意图,(b)为源域模拟采样点云数据的伪标签示意图,(c)为场景混合点云数据的标签示意图。
图7为本发明实施例提供的语义分割方法的输入目标域点云数据、真实标签及语义分割结果示意图;其中,(a)为输入点云图,(b)为点云真实语义标签,(c)为采用本方法的语义分割结果图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
下面对本发明所提供的域适应的激光雷达点云语义分割方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,本发明实施例提供一种域适应的激光雷达点云语义分割方法,包括:
步骤1,通过目标域模拟采样数据对齐方式初步训练激光雷达点云语义分割网络模型(后面可简称为点云语义分割网络模型),基于初步训练的激光雷达点云语义分割网络模型通过场景混合和伪标签修正结合方式训练该激光雷达点云语义分割网络模型,得到训练好的激光雷达点云语义分割网络模型;
步骤2,通过训练好的激光雷达点云语义分割网络模型对目标域点云数据(为目标域激光雷达点云数据的简称)进行语义分割,得出目标域点云数据的语义分割结果。
上述方法的步骤1中,按以下方式根据目标域模拟采样数据对齐方式初步训练激光雷达点云语义分割网络模型,包括:
步骤11,利用源域点云数据(为源域激光雷达点云数据的简称)的序列点云的融合和目标域的模拟采样,得到符合目标域采样模式的源域模拟采样点云数据;
步骤12,通过得到的符合目标域采样模式的源域模拟采样点云数据训练激光雷达点云语义分割网络模型,得出初步训练的激光雷达点云语义分割网络模型。
上述的步骤11中,按以下方式利用源域点云数据的序列点云的融合和目标域的模拟采样,得到符合目标域采样模式的源域模拟采样点云数据,包括:
步骤111,利用源域点云数据中连续的点云序列和激光扫描设备的位姿数据,将源域点云数据中的多帧点云数据融合得到当前场景的稠密点云数据;
步骤112,在得到稠密点云数据的当前场景中,选取一个点放置虚拟激光雷达并以该点为坐标原点,在当前场景中通过虚拟激光雷达模拟目标域激光雷达按目标域采样模式扫描重新采样得到新的单帧目标域点云数据作为源域模拟采样点云数据。
上述的步骤112中,按以下方式通过虚拟激光雷达模拟目标域激光雷达按目标域采样模式扫描重新采样得到新的单帧目标域点云数据,包括:
步骤1121,通过以下计算公式将稠密点云数据Q中每个点的笛卡尔坐标转换为球坐标,对于Q中的每个三维点在以虚拟激光雷达为原点的笛卡尔坐标系中的三维坐标为(xi,yi,zi),整个稠密点云Q包含NQ个三维点,即Q={qi|qi=(xi,yi,zi),i=1,…,NQ},将每个三维点qi按照下列计算公式变换为球坐标表示q′i,记为(ri,θi,φi),
其中,ri为半径;θi为与z轴夹角,θi范围为激光扫描设备的扫描线角度范围[-θdown,θup];φi为水平旋转角,φi范围为[-π,π];则得到Q对应的球坐标表示Q’,Q′={q′i|q′i=(ri,θi,φi),θi∈[-θdown,θup],φi∈[-π,π],i=1,…,NQ};
步骤1122,根据虚拟激光雷达的角分辨率与线数生成对应的目标域采样模式,采样获得Np条新的扫描射线,每条射线方向由角度θi,φi定义,总的扫描射线线集合为{(θi,φi)|i=1,...,NP},根据这些扫描线方向在稠密点云数据Q的(θ,φ)空间上进行双线性插值,计算得到每条射线上空间点距离原点的距离ri,即得到相对应方向上的点云的球半径{ri|i=1,…,NP};
步骤1123,将虚拟激光雷达模拟目标域激光雷达扫描方式采样后的点集球坐标{(ri,θi,φi)|i=1,...,NP}转换为笛卡尔坐标,得到新的单帧目标域点云数据P={pi|pi=(xi,yi,zi),i=1,...,NP},P中包含Np个点,每个点pi的三维坐标为(xi,yi,zi),对该单帧点云数据中每个点pi在稠密点云数据Q中寻找最近点,以该最近点的标签作为pi的语义标签,记为li,li是一个C维的独热向量,C是语义分割的总类别数目,li中的C个元素只有该点真实类别对应的维度上数值为1,其他元素均为0,则得到单帧目标域点云数据P对应的所有标签数据L={li|li∈{0,1}1×C,i=1,…,NP}。
上述方法的步骤1中,激光雷达点云语义分割网络模型采用基于稀疏卷积的U型三维卷积神经网络、MinkowskiNet50、MinkowskiNet101中的任一种;
该激光雷达点云语义分割网络模型采用交叉熵作为惩罚函数,其公式为:
上述基于目标域模拟采样数据对齐方式训练激光雷达点云语义分割网络模型的方法,利用源域点云数据中已标注点云序列和激光扫描设备的位姿数据进行坐标变换,将多帧连续的稀疏点云融合得到单个场景的稠密点云数据,然后根据目标域点云数据的传感器设置一个虚拟激光雷达在稠密点云数据中模拟目标域激光雷达重新进行扫描采样;下一步利用模拟扫描得到的符合目标域采样模式的源域模拟采样点云数据和标签训练作为激光雷达点云语义分割网络模型的深度神经网络模型。这一方法减小了训练数据与目标测试数据的在空间特性上的差别,尤其是传感器线数不同造成的点云密度差异,降低了对激光雷达点云语义分割网络模型的影响。
上述的步骤1中,按以下方式通过场景混合和伪标签修正方式训练激光雷达点云语义分割网络模型,包括:
用通过目标域模拟采样数据对齐方式训练后得到的激光雷达点云语义分割网络模型作为教师分割网络模型,并以该教师分割网络模型的模型参数初始化一个学生分割网络模型,学生分割网络模型与教师分割网络模型的结构相同;
以包含一帧源域模拟采样点云数据和一帧目标域点云数据作为一个批次的训练数据分别对教师分割网络模型与学生分割网络模型按以下方式进行自训练,包括:
第一训练步,将目标域点云数据输入教师分割网络模型进行预测,得到中间层特征和初始分割结果,根据得到的中间层特征和初始分割结果计算类别中心向量和类别权重图,通过类别权重图对初始分割结果的预测概率图进行加权得到加权后的预测概率图,从该预测概率图中取概率最大的类别作为修正后的目标域点云数据的伪标签;
第二训练步,将目标域点云数据和源域模拟采样点云数据进行场景混合和数据增强后输入到学生分割网络模型,得到学生分割网络模型的预测结果,分别使用目标域点云数据的伪标签和源域点云数据的真实标签进行监督,交叉熵为惩罚函数,使用梯度下降法对学生分割网络模型的参数进行更新,之后根据学生分割网络模型参数的指数移动平均更新教师分割网络模型的参数;
更换下一批次训练数据并重复上述训练步对教师分割网络模型进行更新和对学生分割网络模型进行训练,直到训练结束,最终得到的学生分割网络模型作为训练好的激光雷达点云语义分割网络模型。
上述的第一训练步的训练过程中,教师分割网络模型和学生分割网络模型的优化器学习率均设置为1×10-3;类别中心向量的个数选择K=2;生成目标域点云数据伪标签的概率阈值τ=0.3;
上述的第二训练步的训练过程中,教师分割网络模型和学生分割网络模型的优化器学习率均设置为5×10-4;根据学生分割网络模型参数的指数移动平均更新教师分割网络模型的参数中,指数移动平均的参数α=0.999。
上述的第二训练步的训练过程中,按以下方式将目标域点云数据和源域模拟采样点云数据进行场景混合和数据增强,包括:
场景混合为:将源域模拟采样点云数据中的前景点云的所有点O={(xi,yi,zi)|li.c=1,c∈CO}与目标域点云数据中场景的点云H进行混合,合成新的点云数据P=O∪H作为场景混合点云数据;
其中,前景点云是指前景为行人、自行车、摩托车各小物体的点云,即点的标签c属于集合CO={行人、自行车、摩托车}的点云;点云H为去除前景点云的背景点云;
数据增强为:采用随机旋转、平移、缩放任一种数据增强方法对场景混合得到的场景混合点云数据进行数据增强,例如对点云做关于x或y轴的随机翻转,尺度在[0.95,1.05]范围内的随机缩放以及绕z轴进行[-45。,45。]的随机旋转,增强后的数据作为训练数据来训练学生分割网络模型。
通过上述的场景混合和伪标签修正结合对激光雷达点云语义分割网络模型训练的自训练方法,基于目标域模拟采样数据对齐的数据对齐训练后的激光雷达点云语义分割网络模型作为初始的教师分割网络模型,将目标场景的无标注数据输入教师分割网络模型得到预测结果,取预测结果中置信度较高的部分作为伪标签,利用这些数据和伪标签训练一个结构与激光雷达点云语义分割网络模型一致的学生分割网络模型,然后取学生分割网络模型参数的指数移动平均对教师分割网络模型进行更新。重复上述步骤若干次,教师分割网络模型可以在伪标签的监督下学习到目标场景的上下文信息,该方法能使训练好的模型更好适应目标场景中的上下文关系,克服目标域点云数据所处的地理环境与训练数据不同影响模型效果的问题。此训练方法还可用于实现半监督条件下的域适应。
上述自训练过程中,通过场景混合训练策略是在训练激光雷达点云语义分割网络模型的时候,将源域模拟采样点云数据中的小物体点云加入到目标域点云数据的场景中,组成混合的点云作为输入,由于这部分小物体的点云具有正确的标注,可以指导语义分割模型的学习。类别感知的伪标签修正训练,通过计算当前点云中各类别的特征中心,然后计算逐点特征与各类别中心的距离,使用这些距离作为权重对教师分割网络模型的预测概率图进行修正得到新的预测结果,因类别中心对语义分割结果中的异常点敏感度更低,通过这种方法可以纠正部分分类边界上的噪声标签,很好的解决了受初始模型偏差产生的伪标签噪声问题。
本发明实施例还提供一种处理设备,包括:
至少一个存储器,用于存储一个或多个程序;
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现上述的方法。
本发明实施例进一步提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现上述的方法。
综上可见,本发明实施例的分割方法,能在无监督或半监督条件下对目标域点云数据进行准确的语义分割。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的域适应的激光雷达点云语义分割方法进行详细描述。
实施例1
如图1所示,本实施例提供一种域适应的激光雷达点云语义分割方法,该方法是通过模拟目标域采样模式、数据混合等方式生成伪标签来训练目标域的激光雷达点云语义分割网络模型,再通过训练好的目标域的激光雷达点云语义分割网络模型对目标域点云数据进行语义分割;
其中,训练点云语义分割网络模型主要分为两步,其中,第一步是基于模拟扫描的数据对齐方式训练,训练框架参见图4。利用源域点云数据序列点云的融合和重采样,获取符合目标域采样模式的源域模拟采样点云来训练点云语义分割网络模型。该第一步中,训练过程中点云语义分割网络模型优化器学习率设置为1×10-3;
第二步是基于场景混合和伪标签修正的自训练方式,训练框架参见图5。用第一步训练得到的点云语义分割网络模型作为教师分割网络模型,并以该点云语义分割网络模型的模型参数初始化一个学生分割网络模型,学生分割网络模型的结构与点云语义分割网络模型结构一致,第一训练步时,每一个批次的数据包含一帧源域模拟采样点云数据和一帧目标域点云数据,先将目标域点云数据输入教师分割网络模型进行预测,得到中间层特征和初始分割结果,然后以中间层特征计算得出类别中心和类别权重图,以类别权重图对初始分割结果的预测概率图进行加权,在加权后得到的预测概率图中取概率最大的类别作为修正后的目标域点云数据的伪标签;第二训练步中,将目标域点云数据和源域模拟采样点云数据进行场景混合和数据增强后输入到学生分割网络模型进行预测,得到学生分割网络模型的预测结果,分别使用目标域点云数据的伪标签和源域模拟采样点云数据的真实标签进行监督,以交叉熵为惩罚函数,使用梯度下降法对学生分割网络模型的参数进行更新,之后根据学生分割网络模型参数的指数移动平均更新教师分割网络模型参数;
本轮批次训练数据训练完后,更换下一批训练数据重复上述的训练步骤,直到训练结束,得到的学生分割网络模型作为最终训练好的点云语义分割网络模型。
第一步训练过程中,点云语义分割网络模型的优化器学习率设置为1×10-3;
第二步训练过程中,教师分割网络模型和学生分割网络模型的优化器学习率均设置为5×10-4,指数移动平均的参数α=0.999,生成目标域点云数据伪标签阈值τ=0.3;类别中心向量的个数选择K=2;
上述第二步训练中,在训练时将源域模拟采样点云数据中前景目标(如行人、自行车等,标签c属于集合CO)的点云O={(xi,yi,zi)|li.c=1,c∈CO}与目标域点云数据场景的点云H(去除前景物体后的背景点云)进行混合,合成新的点云数据P=O∪H为场景混合点云数据;对场景混合点云数据采取的数据增强方法包括随机旋转、平移、缩放中的任一种生成训练数据。
下面对上述方法的各步骤进行如下详细说明。
(1)基于目标域模拟采样数据对齐的训练:
本发明所用的点云语义分割网络模型是基于稀疏卷积的U型三维卷积神经网络MinkowskiNet18A,该部分基础分割网络模型也可以使用其它更加复杂的网络如MinkowskiNet50、MinkowskiNet101。本实施例所用点云语义分割网络模型的网络中各卷积层的具体参数设置如下表。
一个待分割的激光雷达点云数据先经过体素化处理后输入卷积网络,输入的尺寸为N×3,其中N为非空体素的个数,每个点的特征为点的三维坐标(x,y,z)。
激光雷达点云数据由于采集传感器的特点通常非常稀疏,并且不同传感器的采样模式(如线数、角度)有很大区别。为了将现有的源域点云数据转化成符合目标域采样模式的点云数据,本发明通过对源域点云数据进行按目标域采样模式的模拟采样实现。首先利用源域点云数据中连续的点云序列和激光扫描设备的位姿数据,融合多帧点云得到当前场景的稠密点云数据Q={qi|qi=(xi,yi,zi),i=1,...,NQ},这样能够在很大程度上解决单帧点云过于稀疏的问题,融合前后的点云对比见图2。在得到稠密点云数据后,在稠密点云数据的场景中选取一个位置点c=(xo,yo,zo)放置虚拟激光雷达,下一步将以该位置点为坐标原点的虚拟激光雷达的扫描过程在场景中重新模拟采样得到新的目标域单帧点云作为源域模拟采样点云数据,首先,需要对点云坐标进行平移:虚拟激光雷达扫描的处理具体步骤为:将稠密点云Q中的笛卡尔坐标转换为球坐标表示,得到新的点集Q′={q′i|q′i=(ri,θi,φi),θi∈[-θdown,θup],φi∈[-π,π],i=1,...,NQ},每个点的球坐标计算方法为:
对于想要得到符合目标域采样模式的一个单帧目标域点云P′={p′i|p′i=(ri,θi,φi),i=1,...,NP},其每个点的球坐标中的(θ,φ)就代表了虚拟激光雷达的目标域采样模式;
因此本发明通过设置的虚拟激光雷达模拟目标域激光雷达的角分辨率和线数,生成对应的采样模式{(θi,φi)|i=1,...,NP},其中Np就是采样点的总数目;然后在稠密点云数据Q的(θ,φ)空间上进行双线性插值计算得到对于(θi,φi)采样方向上点的距离{ri|i=1,...,NP};最后将{(ri,θi,φi)|i=1,...,NP}转换到笛卡尔坐标系,得到单帧目标域点云数据P={pi|pi=(xi,yi,zi),i=1,...,NP},而得到的单帧目标域点云数据对应的标签L={li|li∈{0,1}1×C,i=1,...,NP}可由稠密点云数据的标签通过最近邻插值的方法得到,同一场景不同采样模式获得的点云如图3所示。
在需要将点云语义分割模型迁移到特定的目标域点云数据分割时,可以基于上述这种目标域模拟采样数据对齐方法,对已标注的源域点云数据按照目标域点云数据的采样模式进行模拟采样,得到新的标注数据然后重新训练点云语义分割网络模型。在训练点云语义分割网络模型时,采用交叉熵作为网络训练的损失函数,具体公式为:
(2)自训练
本发明采用的自训练方法包含一个可训练的学生分割网络模型gS和一个动量更新的教师分割网络模型gT,同样,该学生分割网络模型gS与教师分割网络模型gT的结构与基于模拟扫描的数据对齐训练的点云语义分割网络模型一致,均可以采用如MinkowskiNet50、MinkowskiNet101等现有点云分割网络结构。两个模型的结构一致,包含特征提取网络f和分割网络h两部分,可以表示为g(·)=h[f(·)]。
学生分割网络模型gS与教师分割网络模型gT的参数由上一步训练得到的点云语义分割网络模型的参数进行初始化。在自训练过程中,首先教师分割网络模型gT对目标域点云数据进行语义分割预测,即计算第i个点pi属于每个类别c的概率gT(pi)[c],选择概率最大的那个类别作为该点语义分割的伪标签,则对应标签独热向量为:
其中,τ是生成伪标签的概率阈值。
学生分割网络模型gS将利用已标注的模拟目标域采样模式得到的源域模拟采样点云数据和用教师分割网络模型生成伪标签的目标域点云数据进行有监督的训练,更新学生分割网络模型参数,学生分割网络模型gS同样使用交叉熵作为惩罚函数,此时总的惩罚函数为:
其中,lA表示利用源域点云数据按目标域采样模式进行模拟采样得到的源域模拟采样点云数据的真实标签;表示目标域点云数据的伪标签,/>和/>表示学生分割网络模型对源域模拟采样点云数据和目标域点云数据的语义分割结果。
上述每一轮迭代,用教师分割网络模型生成伪标签后再进行学生分割网络模型训练、教师分割网络模型更新,然后再循环上述的场景混合生成伪标签->训练学生分割网络模型->更新教师分割网络模型,直到训练停止。
(3)场景混合训练
在采取自训练框架时,模型的学习效果受伪标签质量影响较大,针对初始教师分割网络模型偏差导致目标域点云数据中小物体的伪标签准确度较低的问题,本发明实施例采用场景混合训练策略。在训练时将源域模拟采样点云数据中前景目标(如行人、自行车等,标签属于集合CO)的点云O={(xi,yi,zi)|li.c=1,c∈CO}与目标域点云数据场景的点云H(去除了前景物体后的背景点云)进行混合,合成新的点云数据P=O∪H经数据增强后用于训练,实际应用结果如图6所示。由于来自源域模拟采样点云数据的点云部分有准确的标签,可以让混合场景中包含更多正确标记的目标,有利于提高点云语义分割模型在这类物体上的分割准确度。考虑到实际点云数据集中多为笔直的道路场景,这种合成方法不会破坏上下文信息。
(4)类别感知的伪标签修正
在实际应用中,自训练过程中使用的伪标签包含许多噪声,这导致激光雷达点云语义分割模型在目标域上学习到错误的映射关系,限制了模型准确度的进一步提升,因此本发明实施例采取一种类别感知的伪标签修正方法来改善这一问题。类别中心是各类别数据的特征分布中心,类别中心对于异常点的敏感度更低,受异常点的影响较小,可以正确表示一类目标的共同特征,而每个点与不同类别中心的距离可以表示其归属不同类别的可能性,利用这一信息可以对异常点的错误标签进行纠正,具体伪标签修正方式如下:
首先将一个目标域点云数据P输入到教师分割网络模型,得到中间层特征fT(P)和初始伪标签(即初始分割结果),对每一类的点特征/>使用K均值算法计算K个中心向量{ec,k|k=1,...,K};特别地,当K=1时,类别中心的计算方法为:
其中,是指示函数,指示第i个点是否被预测为第c个类别,在得到类别中心向量后,可以计算点云中每个点的特征与不同类别中心向量的最小距离di,c作为类别归属的度量,进一步计算得到对应的类别权重图W,第i个点相对于第c个类别的权重值wi,c的值越大,则表示点i归属于类别c的概率越高:
将类别权重图W作为修正因子与初始分割结果的概率图gT(P)相乘,得到加权后的概率图,然后从中取概率最大的类别作为修正后的预测的伪标签,该修正方式的流程如图5所示,其中,教师模型指教师分割网络模型,学生模型指学生分割网络模型,目标数据指目标域点云数据,源数据指源域模拟采样点云数据。这些修正的伪标签可以进一步用于学生分割网络模型的监督学习,修正后的伪标签生成方法为:
本发明提出利用自训练框架指导语义分割网络学习目标场景的上下文信息。实现模型从源域点云数据到目标域点云数据的有效迁移,解决了很难通过数据对齐的训练策略解决的不同数据集采集的场景内容不同造成域偏移的问题,如:不同地理区域的环境、街景都各不相同等造成的域偏移问题,图7为本发明实施例提供的语义分割方法的输入目标域点云数据、真实标签及语义分割预测结果图。
综上可见,本发明实施例的方法通过以上方式训练,可以低成本地实现点云语义分割网络模型在不同应用场景数据之间的有效迁移,该方法在公开的激光雷达点云语义分割数据集上进行了验证,采用本发明的无监督域适应方法的点云语义分割网络模型从nuScenes数据集迁移到SemanticKITTI数据集,以及从SemanticKITTI数据集迁移到nuScenes数据集的语义分割结果交并比分别达到了39.6%和41.7%。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
Claims (10)
1.一种域适应的激光雷达点云语义分割方法,其特征在于,包括:
步骤1,通过目标域模拟采样数据对齐方式初步训练激光雷达点云语义分割网络模型,基于初步训练的激光雷达点云语义分割网络模型通过场景混合和伪标签修正结合的方式训练激光雷达点云语义分割网络模型,得到训练好的激光雷达点云语义分割网络模型;
步骤2,通过训练好的激光雷达点云语义分割网络模型对目标域点云数据进行语义分割,得出目标域点云数据的语义分割结果。
2.根据权利要求1所述的域适应的激光雷达点云语义分割方法,其特征在于,所述步骤1中,按以下方式根据目标域模拟采样数据对齐方式训练激光雷达点云语义分割网络模型,包括:
步骤11,利用源域点云数据的序列点云的融合和目标域的模拟采样,得到符合目标域采样模式的源域模拟采样点云数据;
步骤12,通过得到的符合目标域采样模式的源域模拟采样点云数据训练激光雷达点云语义分割网络模型,得出初步训练的激光雷达点云语义分割网络模型。
3.根据权利要求1所述的域适应的激光雷达点云语义分割方法,其特征在于,所述步骤11中,按以下方式利用源域点云数据的序列点云的融合和目标域的模拟采样,得到符合目标域采样模式的源域模拟采样点云数据,包括:
步骤111,利用源域点云数据中连续的点云序列和激光扫描设备的位姿数据,将源域点云数据中的多帧点云数据融合得到当前场景的稠密点云数据;
步骤112,在得到稠密点云数据的当前场景中,选取一个点放置虚拟激光雷达并以该点为坐标原点,在当前场景中通过虚拟激光雷达模拟目标域激光雷达按目标域采样模式扫描重新采样得到新的单帧目标域点云数据作为源域模拟采样点云数据。
4.根据权利要求3所述的域适应的激光雷达点云语义分割方法,其特征在于,所述步骤112中,按以下方式通过虚拟激光雷达模拟目标域激光雷达按目标域采样模式扫描重新采样得到新的单帧目标域点云数据,包括:
步骤1121,通过以下计算公式将稠密点云数据Q中每个点的笛卡尔坐标转换为球坐标,对于Q中的每个三维点在以虚拟激光雷达为原点的笛卡尔坐标系中的三维坐标为(xi,yi,zi),整个稠密点云Q包含NQ个三维点,即Q={qi|qi=(xi,yi,zi),i=1,…,NQ},将每个三维点qi按照下列计算公式变换为球坐标表示q′i,记为(ri,θi,φi),
其中,ri为半径;θi为与z轴夹角,θi范围为激光扫描设备的扫描线角度范围[-θdown,θup];φi为水平旋转角,φi范围为[-π,π];则得到Q对应的球坐标表示Q’,Q′={q′i|q′i=(ri,θi,φi),θi∈[-θdown,θup],φi∈[-π,π],i=1,...,NQ};
步骤1122,根据虚拟激光雷达的角分辨率与线数生成对应的目标域采样模式,采样获得Np条新的扫描射线,每条射线方向由角度θi,φi定义,总的扫描射线线集合为{(θi,φi)|i=1,...,NP},根据这些扫描线方向在稠密点云数据Q的(θ,φ)空间上进行双线性插值,计算得到每条射线上空间点距离原点的距离ri,即得到相对应方向上的点云的球半径{ri|i=1,...,NP};
步骤1123,将虚拟激光雷达模拟目标域激光雷达扫描方式采样后的点集球坐标{(ri,θi,φi)|i=1,...,NP}转换为笛卡尔坐标,得到新的单帧目标域点云数据P={pi|pi=(xi,yi,zi),i=1,...,NP},P中包含Np个点,每个点pi的三维坐标为(xi,yi,zi),对该单帧点云数据中每个点pi在稠密点云数据Q中寻找最近点,以该最近点的标签作为pi的语义标签,记为li,li是一个C维的独热向量,C是语义分割的总类别数目,li中的C个元素只有该点真实类别对应的维度上数值为1,其他元素均为0,则得到单帧目标域点云数据P对应的所有标签数据L={li|li∈{0,1}1×C,i=1,...,NP}。
6.根据权利要求1-4任一项所述的域适应的激光雷达点云语义分割方法,其特征在于,所述步骤1中,按以下方式通过场景混合和伪标签修正方式训练激光雷达点云语义分割网络模型,包括:
用通过目标域模拟采样数据对齐方式训练后得到的激光雷达点云语义分割网络模型作为教师分割网络模型,并以该教师分割网络模型的模型参数初始化一个学生分割网络模型,学生分割网络模型与教师分割网络模型的结构相同;
以包含一帧源域模拟采样点云数据和一帧目标域点云数据作为一个批次的训练数据分别对教师分割网络模型与学生分割网络模型按以下方式进行自训练,包括:
第一训练步,将目标域点云数据输入教师分割网络模型进行预测,得到中间层特征和初始分割结果,根据得到的中间层特征和初始分割结果计算类别中心向量和类别权重图,通过类别权重图对初始分割结果的预测概率图进行加权得到加权后的预测概率图,从该预测概率图中取概率最大的类别作为修正后的目标域点云数据的伪标签;
第二训练步,将目标域点云数据和源域模拟采样点云数据进行场景混合和数据增强后输入到学生分割网络模型,得到学生分割网络模型的预测结果,分别使用目标域点云数据的伪标签和源域模拟采样点云数据的真实标签进行监督,交叉熵为惩罚函数,使用梯度下降法对学生分割网络模型的参数进行更新,之后根据学生分割网络模型参数的指数移动平均更新教师分割网络模型的参数;
更换下一批次训练数据并重复上述训练步对教师分割网络模型进行更新和对学生分割网络模型进行训练,直到训练结束,最终得到的学生分割网络模型作为训练好的激光雷达点云语义分割网络模型。
7.根据权利要求6所述的激光雷达点云数据的语义分割方法,其特征在于,所述第一训练步的训练过程中,教师分割网络模型和学生分割网络模型的优化器学习率均设置为1×10-3;类别中心向量的个数选择K=2;生成目标域点云数据伪标签的概率阈值τ=0.3;
所述第二训练步的训练过程中,教师分割网络模型和学生分割网络模型的优化器学习率均设置为5×10-4;根据学生分割网络模型参数的指数移动平均更新教师分割网络模型的参数中,指数移动平均的参数α=0.999。
8.根据权利要求6所述的激光雷达点云数据的语义分割方法,其特征在于,所述第二训练步的训练过程中,按以下方式将目标域点云数据和源域模拟采样点云数据进行场景混合和数据增强,包括:
场景混合为:将源域模拟采样点云数据中的前景点云的所有点O={(xi,yi,zi)|li,c=1,c∈CO}与目标域点云数据中场景的点云H进行混合,合成新的点云数据P=O∪H作为场景混合点云数据;
其中,前景点云是指前景为行人、自行车、摩托车各小物体的点云,即点的标签c属于集合CO={行人、自行车、摩托车}的点云;点云H为去除前景点云的背景点云;
数据增强为:采用随机旋转、平移、缩放任一种数据增强方法对场景混合得到的场景混合点云数据进行数据增强,得到的增强数据作为训练数据。
9.一种处理设备,其特征在于,包括:
至少一个存储器,用于存储一个或多个程序;
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现权利要求1-8任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时能实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211632205.2A CN115841574A (zh) | 2022-12-19 | 2022-12-19 | 域适应的激光雷达点云语义分割方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211632205.2A CN115841574A (zh) | 2022-12-19 | 2022-12-19 | 域适应的激光雷达点云语义分割方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115841574A true CN115841574A (zh) | 2023-03-24 |
Family
ID=85578859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211632205.2A Pending CN115841574A (zh) | 2022-12-19 | 2022-12-19 | 域适应的激光雷达点云语义分割方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841574A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030200A (zh) * | 2023-03-27 | 2023-04-28 | 武汉零点视觉数字科技有限公司 | 一种基于视觉融合的场景重构方法与装置 |
CN116229080A (zh) * | 2023-05-08 | 2023-06-06 | 中国科学技术大学 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
CN117036790A (zh) * | 2023-07-25 | 2023-11-10 | 中国科学院空天信息创新研究院 | 一种小样本条件下的实例分割多分类方法 |
CN117291845A (zh) * | 2023-11-27 | 2023-12-26 | 成都理工大学 | 一种点云地面滤波方法、系统、电子设备及存储介质 |
CN117572457A (zh) * | 2024-01-16 | 2024-02-20 | 昆明理工大学 | 一种基于伪标签学习的跨场景多光谱点云分类方法 |
-
2022
- 2022-12-19 CN CN202211632205.2A patent/CN115841574A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030200A (zh) * | 2023-03-27 | 2023-04-28 | 武汉零点视觉数字科技有限公司 | 一种基于视觉融合的场景重构方法与装置 |
CN116229080A (zh) * | 2023-05-08 | 2023-06-06 | 中国科学技术大学 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
CN116229080B (zh) * | 2023-05-08 | 2023-08-29 | 中国科学技术大学 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
CN117036790A (zh) * | 2023-07-25 | 2023-11-10 | 中国科学院空天信息创新研究院 | 一种小样本条件下的实例分割多分类方法 |
CN117036790B (zh) * | 2023-07-25 | 2024-03-22 | 中国科学院空天信息创新研究院 | 一种小样本条件下的实例分割多分类方法 |
CN117291845A (zh) * | 2023-11-27 | 2023-12-26 | 成都理工大学 | 一种点云地面滤波方法、系统、电子设备及存储介质 |
CN117291845B (zh) * | 2023-11-27 | 2024-03-19 | 成都理工大学 | 一种点云地面滤波方法、系统、电子设备及存储介质 |
CN117572457A (zh) * | 2024-01-16 | 2024-02-20 | 昆明理工大学 | 一种基于伪标签学习的跨场景多光谱点云分类方法 |
CN117572457B (zh) * | 2024-01-16 | 2024-04-05 | 昆明理工大学 | 一种基于伪标签学习的跨场景多光谱点云分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115841574A (zh) | 域适应的激光雷达点云语义分割方法、设备及存储介质 | |
CN110070139B (zh) | 面向自动驾驶环境感知的小样本在环学习系统和方法 | |
US20210174149A1 (en) | Feature fusion and dense connection-based method for infrared plane object detection | |
CN110738697A (zh) | 基于深度学习的单目深度估计方法 | |
Wells III | Statistical object recognition | |
CN112347550B (zh) | 耦合式室内三维语义建图及建模方法 | |
CN112347993A (zh) | 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法 | |
CN112257605B (zh) | 基于自标注训练样本的三维目标检测方法、系统及装置 | |
CN111105495A (zh) | 一种融合视觉语义信息的激光雷达建图方法及系统 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN112241784A (zh) | 训练生成模型和判别模型 | |
Brekke et al. | Multimodal 3d object detection from simulated pretraining | |
CN113076804B (zh) | 基于YOLOv4改进算法的目标检测方法、装置及系统 | |
CN112084871B (zh) | 一种基于弱监督学习的高分遥感目标边界提取方法 | |
CN116110022B (zh) | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 | |
CN110659601A (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN117079132A (zh) | 基于高斯距离损失的遥感图像目标检测方法 | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
CN114943870A (zh) | 线特征提取模型的训练方法及装置、点云匹配方法及装置 | |
CN112884135B (zh) | 一种基于边框回归的数据标注校正方法 | |
US20210241102A1 (en) | Training method for a generator neural network imposing data equivariances | |
An et al. | RS-Aug: Improve 3D Object Detection on LiDAR With Realistic Simulator Based Data Augmentation | |
CN111695570B (zh) | 一种基于变分原型推理的小样本下语义分割方法 | |
CN116721206A (zh) | 一种实时的室内场景视觉同步定位与建图方法 | |
CN116612382A (zh) | 一种城市遥感图像目标检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |