CN116168393A - 基于点云神经辐射场的语义标注数据自动生成方法、装置 - Google Patents
基于点云神经辐射场的语义标注数据自动生成方法、装置 Download PDFInfo
- Publication number
- CN116168393A CN116168393A CN202310055600.7A CN202310055600A CN116168393A CN 116168393 A CN116168393 A CN 116168393A CN 202310055600 A CN202310055600 A CN 202310055600A CN 116168393 A CN116168393 A CN 116168393A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- semantic
- point
- radiation field
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000005855 radiation Effects 0.000 title claims abstract description 51
- 230000001537 neural effect Effects 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 29
- 210000005036 nerve Anatomy 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009877 rendering Methods 0.000 abstract description 15
- 238000012545 processing Methods 0.000 abstract description 8
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 12
- 238000002372 labelling Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 230000008447 perception Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于点云神经辐射场的语义标注数据自动生成方法、装置,属于图像处理领域。本发明对传统神经渲染辐射场进行了改进,采用RGB点云先验作为神经网络的先验知识,并且对神经渲染辐射场的输出增加了语义通道,使得神经渲染辐射场不仅能够渲染真实图像,也能够渲染场景的语义图。该方法仅需要极少量的人工语义标注,即可对全场景的点云做语义的稠密化标注,极大的节省了人工标注的成本。实物实验结果表明,本发明能够极大的提高语义标注的速度,同时缩短神经辐射场的训练收敛时间,非常适合用于移动机器人的场景建模领域。截至目前,本发明已经完整应用于实际机器人项目当中。
Description
技术领域
本发明属于图像处理领域,具体涉及一种语义标注数据自动生成方法。
背景技术
近年来,与机器人相关的研究正如火如荼地进行着,机器人技术也被认为是新时代重要的科技发展方向之一。环境感知能力研究是移动机器人研究中的基本问题,机器人需要能够利用现有的传感器高效地、精确地感知周围的环境,这是后续机器人进行运动规划等的先决条件。对于移动机器人感知能力的研究来说,构建周围环境的地图是最终的目标,也是对于感知能力的一个高度概括。无论是轮式机器人,还是更加复杂的足式机器人(包括双足和四足等),在建图的过程中不仅要关注环境中物体本身的三维几何特征,也都越来越强调对于场景的理解能力,即对环境中物体的认知和分类,这样才能根据所处环境的不同应用不同的规划、控制方式,使得机器人能够更加灵活地适应不同的地形环境,具备更强的运动性能。因此,在与机器人感知能力相关的研究当中,对于场景的理解能力研究是十分重要的。
场景理解又可以称为图像分割技术,包括语义分割和实例分割。前者关注每个像素点所属的类别,而后者关注图像中每一个实例对应的位置和类别。无论是语义分割还是实例分割,绝大多数现有的分割算法,都面临着严重依赖人工数据标注、泛化能力不够强等问题。往往在一个场景下训练好的模型,直接应用在另一个场景的表现不佳。如果需要在新的场景进行模型的微调,则又需要花大量的人力进行数据标注工作。
因此,实现语义数据的自动标注或辅助标注,能够极大程度地降低人力成本,同时加快程序开发进度,意义重大。
发明内容
本发明地目的在于解决现有的图像分割技术中需要大量人工标注训练数据的问题,提供了一种在极少量人工标注的前提下就能够自动生成大量标注结果的方法。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种基于点云神经辐射场的语义标注数据自动生成方法,其方法步骤如下:
S1:以相对位姿固定不变的激光雷达和深度相机作为移动机器人的传感器,控制移动机器人在目标场景中进行数据采集,同步记录激光雷达的点云数据以及深度相机的点云数据和RGB图像数据;所述激光雷达和深度相机之间预先标定有外参矩阵,所述深度相机预先标定有内参矩阵;
S2:基于所述激光雷达采集到的点云数据,通过激光里程计算法得到每一帧激光雷达点云的位姿;然后利用里程计的信息,对所述深度相机采集到的每一帧深度相机点云进行投影拼接,得到整个场景的RGB点云;将激光雷达和深度相机各自采集的数据进行时间同步以对齐时间戳,再将每一帧RGB图像的位姿设为时间戳最接近的一帧激光雷达点云的位姿;
S3:对于所述深度相机采集到的所有RGB图像数据,均匀选取其中部分RGB图像作为关键帧进行稀疏的人工语义标注;
S4:针对S2中得到的整个场景的RGB点云,构建一个KNN树,使得针对场景中的任意一个三维点,都能够查询得到该三维点附近的点云坐标;
S5:对每一个关键帧Ti,在深度的取值范围内均匀采样N个深度值d;针对关键帧上的每一个带有人工语义标注的像素点,结合所述内参矩阵和外参矩阵分别将其按照M个d值投影至空间中,得到处于同一条线上的N个空间采样点;
S6:对于S5中得到的每一个空间采样点,在所述的KNN树中进行查询,查找RGB点云中距离该空间采样点小于距离阈值Td的所有点,若符合要求点的数量多于预设的数量M时,取距离最小的M个点并将这M个点的三维坐标以及RGB值构建为一个点云向量,若符合要求的点的数量少于M个时,则将所有符合要求的点的三维坐标以及RGB值构建为一个点云向量,同时通过补0的方式将点云向量中的点数量补足至M个;
S7:以关键帧上每一个带有人工语义标注的像素点构建一个训练样本,并对一个全连接神经网络进行监督训练;所述全连接神经网络中,先以一个像素点对应的N个空间采样点的点云向量为输入,得到N个空间采样点各自对应的RGB值、不透明度σ以及语义类别t,然后基于各空间采样点的不透明度σ对N个空间采样点的RGB值和语义类别t进行融合,得到当前像素点最终呈现的RGB值和语义类别;所述全连接神经网络训练时的损失为像素点的RGB值损失和语义类别损失的加权和;
S8:对于每一个需要进行语义标注的位姿关键帧,将其中的每个像素点按照S5和S6形成一个由N个空间采样点构成的点云向量,然后通过训练后的全连接神经网络得到每个像素点最终呈现的语义类别,从而渲染得到对应的稠密语义图。
作为上述第一方面的优选,所述S1中,外参矩阵通过对激光雷达和深度相机各自产生的点云数据进行点云层级的匹配得到。
作为上述第一方面的优选,所述S2中,激光里程计算法采用FAST-LIO算法。
作为上述第一方面的优选,所述S3中,在进行人工语义标注时,仅需在图像中随机标注不同语义类别的像素点,每一个语义类别标注5-10个像素点。
作为上述第一方面的优选,所述S5中,针对关键帧上的每一个带有人工语义标注的像素点和每一个d值,先根据d值和内参矩阵得到像素点在相机坐标系下的坐标,再根据外参矩阵将相机坐标系下的坐标投影至世界坐标系中形成一个空间采样点。
作为上述第一方面的优选,所述S5中,深度的取值范围为0.5米-10米,N取64。
作为上述第一方面的优选,所述S6中,距离阈值Td取9厘米。
作为上述第一方面的优选,所述S7中,基于各空间采样点的不透明度σ对N个空间采样点的RGB值和语义类别t进行融合的具体做法为:
式中:ci表示第i个空间采样点的RGB值,σi表示第i个空间采样点的不透明度σ,δi表示第i个空间采样点与第i-1个空间采样点的距离,其中距离相机最近的空间采样点作为第一个空间采样点;exp表示指数函数;Ti为中间量;
α(x)=1-exp(-x)
作为上述第一方面的优选,所述S7中,RGB值损失采用L1损失,语义类别损失采用交叉熵损失,总损失由两部分损失等权重求和得到。
第二方面,本发明提供了一种基于点云神经辐射场的语义标注信息自动生成装置,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于在执行所述计算机程序时,实现如上述第一方面任一项所述的基于点云神经辐射场的语义标注信息自动生成方法。
相对于现有技术而言,本发明的有益效果如下:本发明对传统神经渲染辐射场进行了改进,采用RGB点云先验作为神经网络的先验知识,并且对神经渲染辐射场的输出增加了语义通道,使得神经渲染辐射场不仅能够渲染真实图像,也能够渲染场景的语义图。该方法仅需要极少量的人工语义标注,即可对全场景的点云做语义的稠密化标注,极大的节省了人工标注的成本。实物实验结果表明,本发明能够极大的提高语义标注的速度,同时缩短神经辐射场的训练收敛时间,非常适合用于移动机器人的场景建模领域。截至目前,本发明已经完整应用于实际机器人项目当中。
附图说明
图1为本发明中语义信息自动生成的整体框架图;
图2为是一实施例中神经辐射场进行点云采样的点云的可视化效果;
图3为本发明中一个场景的稀疏标注图;
图4为本发明中一个场景的RGB图以及自动生成的语义图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
语义分割神经网络的训练往往需要大量的训练数据,而这些训练真值的获得需要人工进行逐张图片的标注,每张图片也需要对所有像素进行标注,工作量很大,甚至市场上已经出现了外包团队专门提供人工数据标注服务。对于这个问题,主要有两个解决思路,一是可以对神经网络算法本身进行改进,以求提升网络的泛化性能,使其能够通过现有的公开数据集进行训练,然后直接应用于真实场景中。但实际场景种类繁多,物理条件变化很多,目前的算法上无法解决所有场景的泛化问题;二是可以通过自动或者半自动的方式生成语义标注数据,以提供给神经网络进行训练。本发明就是基于第二种方法,力求在极少量的人工标注前提下,通过算法自动生成大量的标注数据。
本发明深入研究了神经辐射场的原理,对传统的神经辐射场做出了两方面较大的改进。一方面,传统的神经辐射场不存在RGB点云先验,而是针对每一个场景都使用神经网络学习场景绝对位置和对应的颜色信息的映射关系,即场景的相关信息都记录在神经网络的参数当中。这样做的缺点在于神经网络需要学习的参数数量庞大,训练所消耗的时间和计算资源都比较大。针对这一点,本发明对神经辐射场加入了RGB点云先验信息,使用光线采样首先在RGB点云当中进行采样,这样一来神经网络需要处理的输入就变成了具有一定颜色信息和位置信息的RGB点云,而不是单纯的三维坐标,因此,训练过程会得到明显的加快。另一方面,传统的神经辐射场只能够渲染RGB图像,不能输出语义信息,而本发明在神经网络的输出中增加了一个维度,用来输出相关的语义信息。
之所以选择神经辐射场作为本发明的方案,是因为神经辐射场本身的特性,能够很好的利用极少量的人工语义标注,来自动生成大量的稠密语义标注图像。对于普通的语义分割算法来说,单张图像是神经网络处理的最小单元,由于大部分神经网络算法都包含卷积操作,因此需要考虑到像素与像素之间的关联,所以最小处理单元是整张图像。但对于神经辐射场而言,每一个像素都独立的对应着一条光线,光线与光线之间的采样相互独立,因此对于神经辐射场而言,最小的处理单元是一个像素。所以在基于神经辐射场的语义标注数据生成算法中,仅仅只标注一张图像中的几个像素是可行的。
如图1所示,为本发明的一个较佳实施例中构建的整体算法框架结构,其核心是基于RGB点云的神经辐射采样算法,首先为神经辐射场加入了RGB点云先验信息,其次在输出信息中增加了语义维度,使得神经辐射场能够渲染语义图信息。对于第一点,本发明还使用RGB点云构建了一个KNN查询树,目的是为了提高点云查询的速度。由于实际场景的点云规模比较大,导致查询速度比较慢。为了加快速度,本发明还是用了GPU的加速算法对查询过程进行加速,使得运行速度得到了很大的提升。对于第二点,传统的神经辐射场只能输出R,G,B和σ信息,在此基础上本发明加入了语义维度信息,即空间中每个点的输出信息变成了R,G,B,σ,t,其中t代表所属的种类。在神经网络训练之前需要人工定义好所有种类,并且在人工标注阶段标注的类别需要包含这些种类。最后神经网络渲染得到RGB图像以及语义信息图,分别和相机采集到的实际RGB图像以及人工标注的稀疏语义信息图进行损失函数计算,来约束神经网络的训练过程。
如图2所示,是神经辐射场进行点云采样的点云的可视化效果。这是本发明在实际实验过程中使用深度相机在环境中采集到的点云,经过多帧的拼接而形成的。可以看到这个初始点云本身的质量并不是特别好,但本发明的算法具有较好的鲁棒性,且该点云本身只是作为神经网络的先验信息,因此并不会影响本发明的方法的性能。
在具体的实验中,图像的分辨率可以任意选取,分辨率越高,画面细节越多,但是渲染所需要的时间也越长。在本发明的其中一个实例中,使用的分辨率是640×480大小,如图3所示为其中一个画面。在这样大小的图像中,只需要人工标注如图所示的语义点即可满足要求,标注点占所有像素的比例只有不到0.01%,极大程度的减少了人工的标注成本。
另外,对于神经辐射场中的全连接神经网络结构,也需要指明。本发明设计了总共5层全连接神经网络,其中中间隐式层的最大节点数量为256个,相比于传统神经辐射场的7层全连接网络也有了较明显的简化。这样做可以加快训练速度。
另外,神经辐射场的最终渲染方式也分为两种,一种是渲染RGB图像,一种是渲染语义图象,二者的渲染方式不尽相同。对于RGB图像的渲染,需要细致考虑遮挡问题,因此本发明采用积分的方式来进行求解。在一条光线上从距离相机最近的采样点开始,根据每个点计算出来的σ来对他们的R,G,B数值进行累加,当σ的和超过一定阈值时则不在考虑后方的采样点,意味着到这里后面的点将被完全遮挡。对于语义图象的渲染则简单一些,由于不需要考虑半遮挡半透明的场景,语义信息更加关注靠近相机的区域,因此只需要根据σ对预测的t进行加权求和即可得到最后的种类预测。
另外,神经网络的训练过程使用的损失函数也分为两种,一种是针对RGB图像的L1损失,另一种是针对语义预测的交叉熵损失。
下面基于上述标注数据自动生成方法,对本发明的一种基于点云神经辐射场的语义标注数据自动生成方法详细过程进行描述,其步骤如下:
S1:首先搭建传感器系统并使用传感器在指定的目标场景中进行数据的采集。传感器系统包括激光雷达和深度相机,需要保证二者之间的相对位姿不可更改。传感器系统安装于移动机器人上进行移动。搭建完传感器系统后,需对两类传感器进行外参标定。由于激光雷达和深度相机都可以直接产生点云数据,因此只需要对二者产生的点云数据做点云层级的匹配,即可计算得到二者之间的外参矩阵另外,还需要对深度相机进行内参标定,得到相机内参矩阵Tk。
针对指定的目标场景,控制移动机器人在目标场景中进行数据采集,使用传感器在场景中进行数据的采集,需要同时记录激光雷达的点云数据以及深度相机的点云数据和RGB图像数据。
S2:基于所述激光雷达采集到的点云数据,通过激光里程计算法得到每一帧激光雷达点云的位姿。然后利用里程计的信息,对深度相机采集到的每一帧深度相机点云进行投影拼接,得到整个场景的RGB点云。将激光雷达和深度相机各自采集的数据进行时间同步以对齐时间戳,再将每一帧RGB图像的位姿设为时间戳最接近的一帧激光雷达点云的位姿。
在本实施例中,运行的激光里程计算法采用FAST-LIO算法,该算法为开源算法。在进行时间同步时,需要对激光雷达和深度相机各自采集的数据进行时间戳对齐,由于每一帧激光雷达点云的位姿预先已经通过激光里程计算法得到了,因此时间戳对齐后可以将激光雷达点云的位姿赋予时间戳最接近的RGB图像。
S3:对于所述深度相机采集到的所有RGB图像数据,均匀选取其中部分RGB图像作为关键帧进行稀疏的人工语义标注。
在本实施例中,可从所有RGB图像数据中均匀选取其中的5%-10%左右的图像,对选取出来的图像进行人工语义标注,这里的标注无需将每一个像素点都标注,只需要在图像中随意选取点标注语义类别,每一个语义类别标注5-10个像素点即可。由此,标注的像素占整张图象的像素比例大约为0.05%左右。
S4:针对S2中得到的整个场景的RGB点云,构建一个KNN树,使得针对场景中的任意一个三维点,都能够查询得到该三维点附近的点云坐标。
S5:对每一个关键帧Ti,在深度的取值范围内均匀采样N个深度值d;针对关键帧上的每一个带有人工语义标注的像素点,结合所述内参矩阵和外参矩阵分别将其按照N个d值投影至空间中,得到处于同一条线上的N个空间采样点。
在本实施例中,深度的取值范围可选择为0.5米-10米,N可取64。针对关键帧上的每一个带有人工语义标注的像素点和每一个d值,先根据d值和内参矩阵得到像素点在相机坐标系下的坐标,再根据外参矩阵将相机坐标系下的坐标投影至世界坐标系中形成一个空间采样点。由此,每一个像素点在0.5米-10米的范围内以均匀采样的方式取64个深度值d,然后通过相机内参外参矩阵计算得到空间中的64个三维点作为空间采样点。上述获得空间采样点的过程,实际上是一个辐射场光线采样的过程,每一个像素点对应的64个三维点最终排列于同一条光线上。
S6:对于S5中得到的每一个空间采样点,在所述的KNN树中进行查询,查找RGB点云中距离该空间采样点小于距离阈值Td的所有点,若符合要求点的数量多于预设的数量M时,取距离最小的M个点并将这M个点的三维坐标以及RGB值构建为一个点云向量,若符合要求的点的数量少于M个时,则将所有符合要求的点的三维坐标以及RGB值构建为一个点云向量,同时通过补0的方式将点云向量中的点数量补足至M个。
需要说明的是,前述的点云向量中每个点包含了6个维度的信息,分别为三维坐标x,y,z和R值,G值,B值,因此点云向量实际上是一个M*6的矩阵。如果RGB点云中距离该空间采样点小于距离阈值Td的点数量小于M个时,需要采样6个维度都是0的点来补足至M个,以确保在KNN树中采样的点构成的点云向量大小一致。在本实施例中,距离阈值Td可取9厘米。
S7:以关键帧上每一个带有人工语义标注的像素点构建一个训练样本,并对一个全连接神经网络进行监督训练;所述全连接神经网络中,先以一个像素点对应的N个空间采样点的点云向量为输入,得到N个空间采样点各自对应的RGB值、不透明度σ以及语义类别t,然后基于各空间采样点的不透明度σ对N个空间采样点的RGB值和语义类别t进行融合,得到当前像素点最终呈现的RGB值和语义类别。其中,全连接神经网络训练时的损失为像素点的RGB值损失和语义类别损失的加权和。
在本实施例中,每个训练样本是基于一个像素点的信息构建的,即一个像素点对应的N个空间采样点的点云向量作为训练样本中的输入数据,训练样本的输出标签则为该像素对最终呈现的RGB值和语义类别。以每个像素点对应的64个空间采样点为例,每一个空间采样点有M*6的点云向量,那么每个像素点就有64*M*6的输入矩阵,输入全连接神经网络之后,可输出得到64*(3+1+T)的矩阵,其中维度3表示RGB值信息,维度1表示不透明度信息σ,维度T表示总计T个语义类别t。
在本实施例中,全连接神经网络训练的总损失函数中两种损失的加权权值均为0.5,且两部分损失函数分别如下:
1)每一帧RGB图像都有其对应的位姿,根据位姿计算出每一个像素对应的光线位置,经过神经网络的处理和最终的渲染步骤后,得到每一个像素最终呈现出来的颜色,即和原有RGB图像一样大小的渲染的RGB图像。RGB图像有三个颜色通道,定义最终的RGB损失为 此为L1损失;
3)最终的总损失函数为Lall=0.5×LRGB+0.5×Lsemantic。
全连接神经网络的训练方式属于现有技术,对此不再详细描述。当训练过程逐渐收敛之后,固定保存网络的参数值,用于进行后续的实际推理过程。
另外,本实施例中,基于各空间采样点的不透明度σ对N个空间采样点的RGB值和语义类别t进行融合的做法为积分累加的方式,具体如下:
式中:ci表示第i个空间采样点的RGB值,σi表示第i个空间采样点的不透明度σ,δi表示第i个空间采样点与第i-1个空间采样点的距离,其中距离相机最近的空间采样点作为第一个空间采样点;exp表示指数函数;Ti为中间量。
α(x)=1-exp(-x)
需要特别注意的是,上述两个融合公式中,ci和si均为向量形式,其计算得到的和也为向量形式。代表了一个像素点对应的R、G、B值,而代表了一个像素点对应的语义类别概率分布向量,其中概率值最大的语义类别为最终呈现的语义类别。即si表示的是T维度的向量(T是总的语义类别数量),最终通过这个公式计算得到的结果还是T维度的向量,最终呈现的语义类别就是T维度向量中最大值的下标。
S8:对于每一个需要进行语义标注的位姿关键帧,将其中的每个像素点按照S5和S6形成一个由N个空间采样点构成的点云向量,然后通过训练后的全连接神经网络得到每个像素点最终呈现的语义类别,从而渲染得到对应的稠密语义图。
需要说明的是,具体需要进行语义标注的位姿关键帧可根据实际的标注需求进行选择。当选择一帧位姿关键帧后,可将其中的每个像素点按照S5和S6形成一个由N个空间采样点构成的点云向量,即先在深度的取值范围内均匀采样N个深度值d,针对关键帧上的每一个像素点,结合前述的内参矩阵和外参矩阵分别将其按照n个d值投影至空间中,得到处于同一条线上的N个空间采样点;然后对于每一个空间采样点,在KNN树中进行查询,查找RGB点云中距离该空间采样点小于距离阈值Td的所有点,构建一个由M个点的6个维度信息组成的点云向量(M个点的选择原则与S6相同)。位姿关键帧中每一个像素点都得到对应的N*M*6的输入矩阵(由N=64个空间采样点的点云向量组成),通过训练后的全连接神经网络,得到N个空间采样点各自对应的RGB值、不透明度σ以及语义类别t,然后基于各空间采样点的不透明度σ按照前述积分累加的方式对N个空间采样点的RGB值和语义类别t进行融合,得到位姿关键帧中每一个像素点最终呈现的RGB值和语义类别。
图4为本发明中图3所示场景的RGB图以及自动生成的语义图,表明本发明可以很好地自动生成稠密的语义图像数据。
综上所述,可以将本发明的基于点云神经辐射场的语义标注数据自动生成方法整个步骤大致划分成三个主要的步骤:第一,使用传感器采集环境的信息,并且对RGB图像逐帧保存为文件,对深度相机生成的点云进行初步的拼接得到场景的总的点云,另外包括对随机选取的RGB图像进行少量的人工标注,这一个步骤可以总结为数据预处理。第二,使用基于点云神经辐射场的方法对场景进行建模,使用第一步中生成的RGB图像以及人工标注的少量语义图象进行监督和约束,通过损失函数来表征训练过程。第三,训练结束后,固化网络参数,然后从第一帧开始逐帧渲染稠密的语义图象,得到最终自动生成的语义图像数据。
此外,上述S1~S8所示的步骤流程可以以存储器中的逻辑指令形式来以软件功能单元的形式实现。这些软件作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的一种基于点云神经辐射场的语义标注数据自动生成方法对应的一种计算机可读存储介质,该存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如前述方案所述的基于点云神经辐射场的语义标注数据自动生成方法。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于点云神经辐射场的语义标注数据自动生成方法对应的一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如前述方案所述的基于点云神经辐射场的语义标注数据自动生成方法。
可以理解的是,上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory,RAM),也可以采用非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,方法步骤如下:
S1:以相对位姿固定不变的激光雷达和深度相机作为移动机器人的传感器,控制移动机器人在目标场景中进行数据采集,同步记录激光雷达的点云数据以及深度相机的点云数据和RGB图像数据;所述激光雷达和深度相机之间预先标定有外参矩阵,所述深度相机预先标定有内参矩阵;
S2:基于所述激光雷达采集到的点云数据,通过激光里程计算法得到每一帧激光雷达点云的位姿;然后利用里程计的信息,对所述深度相机采集到的每一帧深度相机点云进行投影拼接,得到整个场景的RGB点云;将激光雷达和深度相机各自采集的数据进行时间同步以对齐时间戳,再将每一帧RGB图像的位姿设为时间戳最接近的一帧激光雷达点云的位姿;
S3:对于所述深度相机采集到的所有RGB图像数据,均匀选取其中部分RGB图像作为关键帧进行稀疏的人工语义标注;
S4:针对S2中得到的整个场景的RGB点云,构建一个KNN树,使得针对场景中的任意一个三维点,都能够查询得到该三维点附近的点云坐标;
S5:对每一个关键帧Ti,在深度的取值范围内均匀采样N个深度值d;针对关键帧上的每一个带有人工语义标注的像素点,结合所述内参矩阵和外参矩阵分别将其按照M个d值投影至空间中,得到处于同一条线上的N个空间采样点;
S6:对于S5中得到的每一个空间采样点,在所述的KNN树中进行查询,查找RGB点云中距离该空间采样点小于距离阈值Td的所有点,若符合要求点的数量多于预设的数量M时,取距离最小的M个点并将这M个点的三维坐标以及RGB值构建为一个点云向量,若符合要求的点的数量少于M个时,则将所有符合要求的点的三维坐标以及RGB值构建为一个点云向量,同时通过补0的方式将点云向量中的点数量补足至M个;
S7:以关键帧上每一个带有人工语义标注的像素点构建一个训练样本,并对一个全连接神经网络进行监督训练;所述全连接神经网络中,先以一个像素点对应的N个空间采样点的点云向量为输入,得到N个空间采样点各自对应的RGB值、不透明度σ以及语义类别t,然后基于各空间采样点的不透明度σ对N个空间采样点的RGB值和语义类别t进行融合,得到当前像素点最终呈现的RGB值和语义类别;所述全连接神经网络训练时的损失为像素点的RGB值损失和语义类别损失的加权和;
S8:对于每一个需要进行语义标注的位姿关键帧,将其中的每个像素点按照S5和S6形成一个由N个空间采样点构成的点云向量,然后通过训练后的全连接神经网络得到每个像素点最终呈现的语义类别,从而渲染得到对应的稠密语义图。
2.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S1中,外参矩阵通过对激光雷达和深度相机各自产生的点云数据进行点云层级的匹配得到。
3.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S2中,激光里程计算法采用FAST-LIO算法。
4.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S3中,在进行人工语义标注时,仅需在图像中随机标注不同语义类别的像素点,每一个语义类别标注5-10个像素点。
5.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S5中,针对关键帧上的每一个带有人工语义标注的像素点和每一个d值,先根据d值和内参矩阵得到像素点在相机坐标系下的坐标,再根据外参矩阵将相机坐标系下的坐标投影至世界坐标系中形成一个空间采样点。
6.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S5中,深度的取值范围为0.5米-10米,N取64。
7.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S6中,距离阈值Td取9厘米。
8.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S7中,基于各空间采样点的不透明度σ对N个空间采样点的RGB值和语义类别t进行融合的具体做法为:
式中:ci表示第i个空间采样点的RGB值,σi表示第i个空间采样点的不透明度σ,δi表示第i个空间采样点与第i-1个空间采样点的距离,其中距离相机最近的空间采样点作为第一个空间采样点;exp表示指数函数;Ti为中间量;
α(x)=1-exp(-x)
9.如权利要求1所述的基于点云神经辐射场的语义标注数据自动生成方法,其特征在于,所述S7中,RGB值损失采用L1损失,语义类别损失采用交叉熵损失,总损失由两部分损失等权重求和得到。
10.一种基于点云神经辐射场的语义标注信息自动生成装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于在执行所述计算机程序时,实现如权利要求1~9任一项所述的基于点云神经辐射场的语义标注信息自动生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310055600.7A CN116168393B (zh) | 2023-01-17 | 2023-01-17 | 基于点云神经辐射场的语义标注数据自动生成方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310055600.7A CN116168393B (zh) | 2023-01-17 | 2023-01-17 | 基于点云神经辐射场的语义标注数据自动生成方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116168393A true CN116168393A (zh) | 2023-05-26 |
CN116168393B CN116168393B (zh) | 2023-08-25 |
Family
ID=86421384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310055600.7A Active CN116168393B (zh) | 2023-01-17 | 2023-01-17 | 基于点云神经辐射场的语义标注数据自动生成方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116168393B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612357A (zh) * | 2023-07-11 | 2023-08-18 | 睿尔曼智能科技(北京)有限公司 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415032A (zh) * | 2018-03-05 | 2018-08-17 | 中山大学 | 一种基于深度学习与激光雷达的点云语义地图构建方法 |
CN109816686A (zh) * | 2019-01-15 | 2019-05-28 | 山东大学 | 基于物体实例匹配的机器人语义slam方法、处理器及机器人 |
CN110136182A (zh) * | 2019-05-28 | 2019-08-16 | 北京百度网讯科技有限公司 | 激光点云与2d影像的配准方法、装置、设备和介质 |
CN111862205A (zh) * | 2019-12-18 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种视觉定位方法、装置、设备及存储介质 |
US20220244740A1 (en) * | 2021-02-02 | 2022-08-04 | Wuhan University Of Science And Technology | Method of constructing indoor two-dimensional semantic map with wall corner as critical feature based on robot platform |
-
2023
- 2023-01-17 CN CN202310055600.7A patent/CN116168393B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415032A (zh) * | 2018-03-05 | 2018-08-17 | 中山大学 | 一种基于深度学习与激光雷达的点云语义地图构建方法 |
CN109816686A (zh) * | 2019-01-15 | 2019-05-28 | 山东大学 | 基于物体实例匹配的机器人语义slam方法、处理器及机器人 |
CN110136182A (zh) * | 2019-05-28 | 2019-08-16 | 北京百度网讯科技有限公司 | 激光点云与2d影像的配准方法、装置、设备和介质 |
CN111862205A (zh) * | 2019-12-18 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种视觉定位方法、装置、设备及存储介质 |
US20220244740A1 (en) * | 2021-02-02 | 2022-08-04 | Wuhan University Of Science And Technology | Method of constructing indoor two-dimensional semantic map with wall corner as critical feature based on robot platform |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612357A (zh) * | 2023-07-11 | 2023-08-18 | 睿尔曼智能科技(北京)有限公司 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
CN116612357B (zh) * | 2023-07-11 | 2023-11-24 | 睿尔曼智能科技(北京)有限公司 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116168393B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551405B2 (en) | Computing images of dynamic scenes | |
CN111563923B (zh) | 获得稠密深度图的方法及相关装置 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN108335353B (zh) | 动态场景的三维重建方法、装置和系统、服务器、介质 | |
CN111428575B (zh) | 一种基于孪生网络的针对模糊目标的跟踪方法 | |
CN112990116A (zh) | 基于多注意力机制融合的行为识别装置、方法和存储介质 | |
JP2022542758A (ja) | 3次元モデル生成方法、ニューラルネットワーク生成方法及び装置 | |
CN115457188A (zh) | 一种基于注视点的3d渲染显示方法及系统 | |
CN113689326B (zh) | 一种基于二维图像分割引导的三维定位方法 | |
CN116168393B (zh) | 基于点云神经辐射场的语义标注数据自动生成方法、装置 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
JP2024507727A (ja) | 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング | |
Du et al. | Stereo-matching network for structured light | |
Zhang et al. | Video extrapolation in space and time | |
CN114299101A (zh) | 图像的目标区域获取方法、装置、设备、介质和程序产品 | |
CN117237547A (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN116091871B (zh) | 一种针对目标检测模型的物理对抗样本生成方法及装置 | |
CN116912393A (zh) | 人脸重建方法、装置、电子设备及可读存储介质 | |
CN108921852B (zh) | 基于视差与平面拟合的双分支室外非结构化地形分割网络 | |
CN116758214A (zh) | 遥感图像的三维建模方法、装置、电子设备及存储介质 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN112463936A (zh) | 一种基于三维信息的视觉问答方法及系统 | |
CN118229781B (zh) | 显示屏异物检测方法、模型训练方法、装置、设备及介质 | |
CN117876430B (zh) | 一种全景图像及视频中的扫视路径预测方法、设备及介质 | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240621 Address after: Building 5, 5th Floor, No. 309 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province, 310000 Patentee after: Supcon Group Co.,Ltd. Country or region after: China Address before: 310058 Yuhang Tang Road, Xihu District, Hangzhou, Zhejiang 866 Patentee before: ZHEJIANG University Country or region before: China |
|
TR01 | Transfer of patent right |