CN112837354B

CN112837354B - 一种基于gpu的ndt点云配准算法、装置及电子设备

Info

Publication number: CN112837354B
Application number: CN202110145479.8A
Authority: CN
Inventors: 文博; 张剑; 梁爽; 陆天翼; 熊祺; 姜晓旭
Original assignee: Beijing Chaoxing Future Technology Co ltd
Current assignee: Beijing Chaoxing Future Technology Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-06-16
Anticipated expiration: 2041-02-02
Also published as: CN112837354A

Abstract

本申请实施例中提供了一种基于GPU的NDT点云配准算法、装置及电子设备，属于点云配准计算机技术领域，算法包括：提取目标点云数据，提取源点云数据，计算高斯近似常量，给定初始猜测位姿，对源点云中的点进行变换，计算Jacobian矩阵和Hessian矩阵，判定经位姿变换后的源点云中的点是否为有效点，计算每个有效点的梯度向量

和Hessian矩阵H并分别加和，将加和后的

和H'利用Jacobi方法实现奇异值分解方程

Description

一种基于GPU的NDT点云配准算法、装置及电子设备

技术领域

本申请涉及点云配准计算机技术领域，尤其涉及一种基于GPU的NDT点云配准算法、装置及电子设备。

背景技术

自动驾驶的定位任务常由GNSS(Global Navigation Satellite System，全球导航卫星系统)，IMU(Inertial Measurement Unit，惯性测量单元)和RTK(Real-TimeKinematic，载波相位差分技术)组合或独立完成，但这些定位方法在运行时常受一些现实条件的约束。例如，在峡谷和高楼中GNSS的定位精度可能由1-3米下降到10-50米；IMU在连续积分后因定位误差被累积导致定位精度变差；RTK在大部分地区并没有被使用等等。因此，在当今的自动驾驶定位任务中，经过组合导航定位被引入。这种组合导航将几种定位方法相融合，以得到更加精准且鲁棒的定位结果。

在基于激光雷达定位任务中，点云配准作为辅助配准的方法被引入，用以对上述定位方法进行校准。NDT(Normal Distributions Transform，正态分布变换)配准是一种点云配准算法。这种算法利用正态分布对三维目标点云中的物体进行描述，将源点云扫描出的物体与目标点云中以正态分布描述的物体进行匹配，并利用线搜索的迭代方法搜索最佳变换位姿。因为激光雷达扫描后得到的数据量庞大，且NDT算法引入了对物体的多维描述，所以NDT算法对计算单元的算力要求较高。

目前的NDT算法均由CPU进行计算，然而CPU在进行大规模计算任务时并不能保证算法的低延时，其原因是CPU上有限的计算单元；这种问题在车载计算平台上更加明显，因为CPU的算力进一步被CPU数量局限。而在自动驾驶的应用场景中需要采用高线束雷达，一般情况下需要保证在16线以上，这就意味着在算法中需要处理大量的点，因此大算力计算单元需要被应用。

发明内容

有鉴于此，本申请实施例提供一种基于GPU的NDT点云配准算法、装置及电子设备，利用GPU的并行计算能力和丰富的计算单元代替CPU完成计算任务，并针对GPU架构进行了算法部署，以充分发挥GPU的计算能力，至少部分解决现有技术中存在的问题。

第一方面，本申请实施例提供了一种基于GPU的NDT点云配准算法，包括以下步骤:

提取目标点云数据，包括：

将目标点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存中并存储；

将目标点云划分为若干个体素，每个体素对应有参数；及

分别为每个参数分配GPU显存空间，计算每个体素对应的参数，将计算结果存储于各参数对应的显存空间；

提取源点云数据，将源点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存；

计算高斯近似常量；

变换位姿求解过程，包括：

给定初始猜测位姿

，根据/>

计算变换方程，并将变换方程内的参数存入GPU常量内存；

利用变换方程内的参数对源点云中的点进行变换，得到旋转点云集；

利用所述变换方程内的参数计算Jacobian矩阵J_E和Hessian矩阵H_E，并将计算结果分别拷入GPU常量内存；

判定旋转点云集中的点是否为有效点；

根据各体素中的参数和高斯近似常量得到分数方程；

根据J_E和H_E，计算每个有效点关于分数方程的梯度向量

和二阶导数Hessian矩阵H，并分别加和所有有效点的/>

和H，得到加和后的梯度向量/>

和二阶导数Hessian矩阵H'；

将得到的

和H'的结果从GPU拷入CPU，利用Jacobi方法实现奇异值分解并解方程：/>

其中，/>

为位姿增量，求出/>

的范数并对/>

归一化；

将

的范数和归一化结果代入线搜索算法，更新/>

并将该位姿增量与本次迭代的初始位姿相加得到新的位姿/>

及

重复变换位姿求解过程，直到

的范数固定不变或变换位姿求解过程的迭代次数等于预设最大迭代次数后停止迭代，得出最优变换位姿/>

根据本申请实施例的一种具体实现方式，所述将目标点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存中并存储，其中，存储形式为所述XYZ轴坐标数据按数组形式分别储存，每一个所述数组的长度等于所述目标点云数据中点的数量，且所述XYZ轴坐标数据分别对应的数组空间均为显存中的连续地址空间。

根据本申请实施例的一种具体实现方式，所述将目标点云划分为若干个体素包括：

在GPU中利用线程束级操作完成快速归约算法，找到所述XYZ轴的最大值和最小值确定所述目标点云边界；

根据所述目标点云边界和预设体素分辨率计算得到XYZ三个维度上所述体素的个数，将三个维度上所述体素的个数相乘得到总的体素个数。

根据本申请实施例的一种具体实现方式，所述将目标点云划分为若干个体素，每个体素对应有参数，其中，所述参数包括协方差矩阵，重心向量和协方差矩阵的逆矩阵。

根据本申请实施例的一种具体实现方式，所述旋转点云集中的点是否为有效点的方法为对所述旋转点云集中的点进行半径搜索，或根据所述旋转点云集中点的坐标映射入所属体素后，判断该点是否存在候选体素，以及该点的候选体素中是否有一个体素包含5个以上的目标点云集的点。

根据本申请实施例的一种具体实现方式，所述半径搜索的步骤包括：

将以所述旋转点云集中的一点为圆心，R为半径的球体相切的所述体素作为该点的候选体素并记录，完成所述旋转点云集中所有点的所述候选体素记录，其中，R为所述体素的分辨率；

遍历并检查各点的所述候选体素，若点到与该点对应的所述候选体素的重心距离大于R，则将该体素从该点的所述候选体素中剔除；

遍历所述旋转点云集中的所有点，若某一点有所述候选体素且该候选体素中含有5个以上目标点云中的点则将此点标记为有效点，否则将此点标记为非法点。

根据本申请实施例的一种具体实现方式，所述线搜索算法为More-Thuente线搜索。

根据本申请实施例的一种具体实现方式，所述根据J_E和H_E，计算每个有效点关于分数方程的梯度向量

和二阶导数Hessian矩阵H，并分别加和所有有效点的/>

和H，其中，所述分别加和所有有效点的/>

和H时采用GPU线束级归约操作。

第二方面，本申请实施例还提供一种基于GPU的NDT点云配准算法的配准装置，所述配准装置包括：

目标点云数据提取模块,所述目标点云数据提取模块用于提取目标点云数据，包括将目标点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存中并存储；将目标点云划分为若干个体素，每个体素对应有参数；及分别为每个参数分配GPU显存空间，计算每个体素对应的参数，将计算结果存储于各参数对应的显存空间；

源点云数据提取模块，所述源点云数据提取模块用于将源点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存；

高斯近似常量计算模块，所述高斯近似常量计算模块用于计算所述高斯近似常量；及

变换位姿求解模块，所述变换位姿求解模块用于实现点云最优变换位姿搜索过程，包括：

给定初始猜测位姿

根据/>

计算变换方程，并将变换方程内的参数存入GPU常量内存；

判定旋转点云集中的点是否为有效点；

根据各体素中的参数和高斯近似常量得到分数方程；

根据J_E和H_E，计算每个有效点关于分数方程的梯度向量

和二阶导数Hessian矩阵H，并分别加和所有有效点的/>

和H，得到加和后的梯度向量/>

和二阶导数Hessian矩阵H'；

将得到的

其中，/>

为位姿增量，求出/>

的范数并对/>

归一化；

将

的范数和归一化结果代入线搜索算法，更新/>

并将该位姿增量与本次迭代的初始位姿相加得到新的位姿/>

及

重复变换位姿求解过程，直到

第三方面，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述第一方面中任一实施例所述的基于GPU的NDT点云配准算法。

第四方面，本申请实施列还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一实施例所述的基于GPU的NDT点云配准算法。

有益效果

本申请提出的基于GPU的NDT点云配准算法，针对CPU在进行大规模计算任务时并不能保证算法的低延时的问题，提出了一整套可以在GPU上执行的NDT点云配准算法，该算法流程根据GPU结构进行了部署，解决算法的在CPU上执行时的高延时问题，提高了GPU的工作效率。

具体实施方式

下面对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本申请实施例提供的基于GPU的NDT点云配准算法中利用线搜索方法进行最优位姿计算，所采用的线搜索方法可以不做限定，不局限于本申请所列出的线搜索方法。在以下的描述中，以基于More-Thuente线搜索的NDT点云配准方法为例进行描述。

第一方面，本申请实施例提供了一种基于GPU的NDT点云配准算法，下面将具体描述点云配准算法，包括：

S1：提取目标点云数据，所述提取目标点云数据包括：

S1.1：在GPU显存中开辟3个内存空间，所述内存空间大小为4bytes×N_T，其中N_T为目标点云数量；

S1.2：将目标点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存中开辟的内存空间，这三个轴的数据在GPU显存中按数组形式分别储存，每一个数组的长度等于目标点云中点的数量N_T，且这三个轴对应的数组空间均为连续地址空间；

S1.3：将目标点云划分为若干个体素，每个体素对应有参数；

S1.4：分别为每个参数分配空间，计算每个体素对应的参数，将计算结果存储于各参数对应的空间。

在本实施例中，所述将目标点云划分为若干个体素包括：根据提取的所述目标点云数据，在GPU中利用线程束级操作(Warp-Level Operation)完成快速归约算法，找到所述XYZ轴的最大值和最小值确定目标点云边界；根据所述目标点云边界和预设体素分辨率R_x，R_y和R_z得到三维体素网格，并计算得到XYZ三个维度上所述体素的个数N_x，N_y和N_z，其中，R_x，R_y和R_z分别代表所述体素在X、Y和Z轴的分辨率，在本实施例中R_x＝R_y＝R_z＝R，将三个维度上所述体素的个数N_x，N_y和N_z相乘得到总的体素个数N_V。

进一步的，利用线程束级快速归约算法(Warp-Level Reduction)，具体包括：首先在GPU的每个线程块内分配P_t个线程，P_t需为32的整数倍且32≤P_t≤1024；根据所述P_t确定线程块个数P_b，

在GPU显存中创建一个输出缓存器，其大小为4bytes×P_b；在每个线程中以b_x×P_t+t_x为起始索引，P_b×P_t为步长，N_T为循环终止条件遍历目标点云中的点，以线程为单位找出最大值，其中b_x为线程块索引，t_x为线程索引；将所有线程找出的最大值用Warp Operation操作在线程块内进行比较，找出线程块内的最大值，并由该线程块中的零号线程将最大值写入所述输出缓存器，所述输出缓存器的写入位置由执行该操作的线程块索引b_x决定；为线程块分配1024个线程，为GPU分配1个线程块,每个线程遍历输出缓存器中的一个元素，再次利用Warp Operation操作找出该线程块内的最大值，并由零号线程输出该最大值；重复所述线程束级快速归约算法三次，找出最大X，Y，Z的值并确定所述目标点云边界。

需要说明的是所述体素的参数包括协方差矩阵Σ，重心向量

和协方差矩阵的逆矩阵Σ^-1，其中，所述协方差矩阵和重心向量来表述对应的体素中描绘点云分布的三维正态分布，所述协方差矩阵的逆矩阵用于后续点云配准过程中计算源点云中的点在该体素中的概率密度。

在为所述参数分配空间时，具体分配方法为：所述协方差矩阵和协方差矩阵的逆矩阵中分别有9个元素，因此在GPU显存中分别为两个矩阵开辟9个数组空间，每个数组空间大小等于体素个数，且这9个数组在GPU显存中为连续的地址空间，即GPU显存中存储这个矩阵的设备内存应为一个大小为9×4bytes×N_V的连续地址空间，每个矩阵的9个数组分别依次存储矩阵的9个元素。

例如，在一个申请实施例中，为所述协方差矩阵分配空间，规定空间中X，Y，Z轴坐标值最小的体素为索引是0的体素，依据X，Y，Z轴的先后顺序，按坐标数值增大的方向从0到N_T-1顺序为所有体素分配索引，第一个数组依次存储所有体素对应协方差矩阵中的第一个元素，第二个数组依次存储协方差矩阵的第二个元素，共完成所述协方差矩阵的9个元素的存储。

所述协方差矩阵的逆矩阵和重心向量与所述协方差矩阵的分配空间方法相同，在此不再赘述，可参照所述协方差矩阵分配空间的方法进行分配，其中，为重心向量在GPU显存中分配空间，这样做的目的是在读取体素中参数，即两个矩阵和一个向量时做到对GPU内存的合并访问，以增加访存效率。

在本申请实施例中，所述计算每个体素对应的参数具体包括：

为每一个目标点云中的点分配一个GPU线程，设线程块中线程的数量为P_t'，则线程块的数量

根据点的X，Y，Z坐标将点映射入所述三维体素网格；

按所属分配线程，遍历体素内所有点，将体素内所有点的XYZ轴坐标分别相加后除以体素内点的数量，得到重心向量，将每个体素的重心向量储存到对应的重心向量空间；

按所属分配线程，根据定义，协方差矩阵的第i,j项如下：

Σ_i,j＝cov(X_i,X_j)＝E[(X_i-u_i)(X_j-u_j)]，即

其中，

是由n个随机向量组成的列向量，u_i是其中第i个元素的期望值，即u_i＝E(X_i)，根据上式计算每个体素的协方差矩阵Σ，并将计算结果存入对应的内存空间。值得注意的是，后续的过程中需要计算协方差矩阵的逆矩阵，因此，为防止体素中的点完全共面或共线，即协方差矩阵是奇异的并且不能求逆，只有含有5个点以上的体素被计算协方差矩阵，否则该体素对应的协方差矩阵中的所有元素全部置零；更进一步的，为了防止在计算中出现数值问题，当协方差矩阵近乎奇异时，即当协方差矩阵中的最大特征值λ₃比其他任意两个特征值大100倍时，那么比这个最大特征值小100倍以上的特征值λ_j会被置为

此时协方差矩阵变为Σ'＝VΛ'V，其中V包含Σ的特征向量，Λ'为

根据所述分配线程，根据定义Σ×Σ^-1＝I，计算协方差矩阵的逆矩阵，其中I是单位矩阵，将得到的协方差矩阵的逆矩阵存入对应的内存空间。

S2、提取源点云数据，所述源点云数据的内存分配和提取方法可参照目标点云，将源点云χ中点的XYZ轴坐标数据从CPU内存中拷入GPU显存，记源点云χ中点的数量为N_s。

S3、计算高斯近似常量，所述高斯近似常量包括c₁，c₂，d₁，d₂和d₃，具体计算过程为：

c₁和c₂为一个常数，令如下公式：

在体素跨越的空间中等于1可求出该常数，其中，p₀是离群值(β)的比例，在本发明中β设为0.55，c₁和c₂和可被简算为：

c₁＝10×(1-β)，

根据如下公式计算d₁，d₂和d₃：

d₃＝-log(c₂)，

d₁＝-log(c₁+c₂)-d₃，

S4、给定初始猜测位姿

其中/>

根据/>

计算变换方程，并将变换方程内的参数存入GPU常量内存。

需要说明的是，

可由其他定位系统给出，在本申请中并不做任何限定，例如，可以由IMU，GNSS，RTK，里程计信息等等给出。

S5、利用变换方程内的参数对源点云中的点进行变换，得到旋转点云集。所述变换方程如下：

其中，c_i＝cosφ_i，s_i＝sinφ_i；计算该变换方程，将方程内所有参数存入GPU常量内存；

所述变换过程为，为每一个源点云中的点分配一个GPU线程，设线程块中线程的数量为P_t”，则线程块的数量

读取常量内存中的参数对点进行变换，得到旋转后的旋转点云集χ'；读取常量内存时常量内存会被从全局内存缓存至GPU流处理器上的常量缓存，这个操作将对于全局内存的访问转换为片上缓存，从而加快访存速度。

S6、利用所述变换方程内的参数计算Jacobian矩阵J_E和Hessian矩阵H_E，并将计算结果分别拷入GPU常量内存。

所述Jacobian矩阵J_E的计算公式为：

其中，

a＝x₁(-s_xs_z+c_xs_yc_z)+x₂(-s_xc_z-c_xs_ys_z)+x₃(-c_xc_y)

b＝x₁(c_xs_z+s_xs_yc_z)+x₂(-s_xs_ys_z+c_xc_z)+x₃(-s_xc_y)

c＝x₁(-s_yc_z)+x₂(s_ys_z)+x₃(c_y)

d＝x₁(s_xc_yc_z)+x₂(-s_xc_ys_z)+x₃(s_xs_y)

e＝x₁(-c_xc_yc_z)+x₂(c_xc_ys_z)+x₃(-c_xs_y)

f＝x₁(-c_ys_z)+x₂(-c_yc_z)

g＝x₁(c_xc_z-s_xs_ys_z)+x₂(-c_xs_z-s_xs_yc_z)

h＝x₁(s_xc_z+c_xs_ys_z)+x₂(c_xs_yc_z-s_xs_z)；

所述Hessian矩阵H_E的计算公式为：

其中，

S7、判定χ'中的点是否为有效点。

根据本申请实施例的一种具体实现方式，所述判定χ'中的点是否为有效点的方法为对所述源点云中的点进行半径搜索或根据所述源点云中点的坐标映射入所属体素。优选的，采用半径搜索法判定有效点，这个操作是为了在单次的变换位姿求解的过程中让结果更加鲁棒，具体过程为：分配线程池，参照源点云旋转时的分配方法在每个线程中查找与以该点为圆心，R为半径的球体相切的体素，作为该点的候选体素并记录这些候选体素；分配线程池，在每个线程中遍历并检查步骤10.1中所描述的候选体素，如果点到该候选体素的重心的距离大于R，则将该体素从候选体素中剔除；分配线程池，遍历χ'中的所有点，若该点有候选体素则将此点标记为有效点，否则将此点标记为非法点，记有效点的数量为N_c。

S8、根据体素的参数和高斯近似常量计算每个有效点的分数，并将各有效点对应的分数加和得到分数方程，具体计算过程为：

为每一个有效点分配一个GPU线程，设线程块中线程的数量为P_t”'，则线程块的数量

在线程中遍历该有效点的所有的候选体素，根据如下分数计算式：

计算该点对当前位姿变换的影响，其中

和/>

代表该有效点所在的候选体素，K代表候选体素个数；至此，给出一个源点云集χ，一个变换位姿/>

一个变换方程/>

那么对于变换位姿/>

在NDT配准的分数方程的和/>

即分数方程可以表示为

S9、根据J_E和H_E，计算分数方程对变换位姿

的梯度向量/>

和二阶导数Hessian矩阵H，具体计算过程为：

根据J_E和H_E，计算每个有效点关于分数方程的梯度向量

和二阶导数Hessian矩阵H，并分别加和所有有效点的/>

和H，得到加和后的梯度向量/>

和二阶导数Hessian矩阵H'；

如步骤S8中描述分配线程池，遍历所有有效点，根据公式：

计算该点的梯度向量，其中g_i表示表示梯度向量中的第i个元素，

由J_E的第i列给出，/>

是/>

按照/>

旋转后得到的，由步骤S5计算得出；

如步骤S8中描述分配线程池，遍历所有有效点，根据公式

计算Hessian矩阵的i，j元素，其中

由H_E给出。

本实施例中，分数方程的梯度

和二阶导数Hessian矩阵H'由各有效点的梯度/>

和二阶导数Hessian矩阵H分别加和得到，所述加和所有有效点的/>

和H是与线束级操作同理，是利用GPU Warp-Level Reduction方法。

S10、将得到的

其中，/>

为位姿增量，求出/>

的范数并对/>

归一化，/>

的范数即为所有向量元素的平方和的平方根。

S11、将

的范数和归一化结果代入More-Thuente线搜索算法，更新/>

将更新后的位姿增量/>

与本次迭代最开始的位姿相加得到新的位姿/>

S12、重复步骤S4-S11，直到

的范数固定不变或S4-S11的迭代次数等于最大迭代次数后停止迭代，得出最优变换位姿/>

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

给定初始猜测位姿

根据/>

计算变换方程，并将变换方程内的参数存入GPU常量内存；

判定旋转点云集中的点是否为有效点；

根据各体素中的参数和高斯近似常量得到分数方程；

根据J_E和H_E，计算每个有效点关于分数方程的梯度向量

和二阶导数Hessian矩阵H，并分别加和所有有效点的/>

和H，得到加和后的梯度向量/>

和二阶导数Hessian矩阵H'；

将得到的

其中，/>

为位姿增量，求出/>

的范数并对/>

归一化；

将

的范数和归一化结果代入线搜索算法，更新/>

并将该位姿增量与本次迭代的初始位姿相加得到新的位姿/>

及

重复变换位姿求解过程，直到

本申请提供的实施例针对CPU在进行大规模计算任务时并不能保证算法的低延时的问题，发明了一种基于GPU的NDT点云配准算法，提出了一整套可以在GPU上执行的NDT点云配准算法，该算法流程根据GPU结构进行了部署，降低算法在CPU端的高延时问题，提高了GPU工作效率。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于GPU的NDT点云配准算法，其特征在于，包括以下步骤:

提取目标点云数据，包括：

将目标点云划分为若干个体素，每个体素对应有参数；及

计算高斯近似常量；

变换位姿求解过程，包括：

给定初始猜测位姿

根据/>

计算变换方程，并将变换方程内的参数存入GPU常量内存；

判定旋转点云集中的点是否为有效点；

根据各体素中的参数和高斯近似常量得到分数方程；

根据J_E和H_E，计算每个有效点关于分数方程的梯度向量

和二阶导数Hessian矩阵H，并分别加和所有有效点的/>

和H，得到加和后的梯度向量/>

和二阶导数Hessian矩阵H'；

将得到的

和H'的结果从GPU拷入CPU，利用Jacobi方法实现奇异值分解并解方程：

其中，/>

为位姿增量，求出/>

的范数并对/>

归一化；

将

的范数和归一化结果代入线搜索算法，更新/>

并将该位姿增量与本次迭代的初始位姿相加得到新的位姿/>

及

重复变换位姿求解过程，直到

2.根据权利要求1所述的基于GPU的NDT点云配准算法，其特征在于，所述将目标点云中点的XYZ轴坐标数据从CPU内存中拷入GPU显存中并存储，其中，存储形式为所述XYZ轴坐标数据按数组形式分别储存，每一个所述数组的长度等于所述目标点云数据中点的数量，且所述XYZ轴坐标数据分别对应的数组空间均为显存中的连续地址空间。

3.根据权利要求1所述的基于GPU的NDT点云配准算法，其特征在于，所述将目标点云划分为若干个体素包括：

4.根据权利要求1所述的基于GPU的NDT点云配准算法，其特征在于，所述将目标点云划分为若干个体素，每个体素对应有参数，其中，所述参数包括协方差矩阵，重心向量和协方差矩阵的逆矩阵。

5.根据权利要求1所述的基于GPU的NDT点云配准算法，其特征在于，所述旋转点云集中的点是否为有效点的方法为对所述旋转点云集中的点进行半径搜索，或根据所述旋转点云集中点的坐标映射入所属体素后，判断该点是否存在候选体素，以及该点的候选体素中是否有一个体素包含5个以上的目标点云集的点。

6.根据权利要求5所述的基于GPU的NDT点云配准算法，其特征在于，所述半径搜索的步骤包括：

7.根据权利要求1所述的基于GPU的NDT点云配准算法，其特征在于，所述线搜索算法为More-Thuente线搜索。

8.根据权利要求1所述的基于GPU的NDT点云配准算法，其特征在于，所述根据J_E和H_E，计算每个有效点关于分数方程的梯度向量