CN112258378A

CN112258378A - 基于gpu加速的实时三维测量系统及方法

Info

Publication number: CN112258378A
Application number: CN202011104452.6A
Authority: CN
Inventors: 钟波
Original assignee: Wuhan Yiweisheng Medical Technology Co ltd
Current assignee: Wuhan Yiweisheng Medical Technology Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-22

Abstract

本发明公开一种基于GPU加速的实时三维测量系统及方法，系统由CPU、GPU、PC机内存和GPU外部显示存储器所组成，PC机内存的数据输出端与CPU的数据输入端连接，以将系统参数和图像数据发送至CPU，CPU与GPU信号相连，由CPU将系统参数和图像数据转送至GPU，并启动核函数，GPU外部显示存储器与GPU信号相连，以储存系数参数和图像数据，GPU的数据输出端与PC机内存的数据输入端连接，图像数据通过核函数对其像素点进行并行计算后，将计算得到的三维数据传送回PC机内存中进行保存，紧接着GPU提示CPU传入新像素点的数据。本发明可有效提高全时间分辨率、全空间分辨率的动态物体三维面测量的计算效率。

Description

基于GPU加速的实时三维测量系统及方法

技术领域

本发明涉及动态物体三维计算技术领域，具体涉及一种基于GPU加速的实时三维测量系统及方法。

背景技术

实现实时动态物体三维计算在众多应用领域中具有特别重要的意义。如在生产线在线监测过程中，三维计算速度如果不能跟上生产线运行的速度，测量将失去意义。从二维图像点到三维点的计算过程本身就是一个复杂且耗时的过程。当图像分辨率为512*512时，可能需要执行几十万次二维到三维的重构过程，计算密度非常大且耗时。

目前很多科学问题(如卫星成像处理、基因工程、核爆模拟等)的数据规模都需要万亿以上的计算能力。因此，大数据量的密集计算一直是制约高性能计算的瓶颈。算法运行的硬件载体CPU经过几十年的发展已经逐步遭遇性能瓶颈，受光速的绝对限制30㎝/ns，芯片集成晶体管的尺寸存在分子，原子极限的问题，CPU的时钟频率再突破4GHZ后已经很难进一步提高。因此，研究单位与制造商不得不寻求其他的方式进一步提升计算性能。超级计算机是通过增加CPU的数量来提升性能。在高速的超级计算机中，通常是几百甚至上千个处理器同时运行。根据超级计算机的启示，CPU正向多核并行处理的方向发展。然而，传统的CPU计算架构采用多个内核共享同一内存的机制，随着CPU内核数目的增长，其内存存取效率将逐步降低，计算性能无法现行增长。

GPU则采用了完全不同的另外一种架构，早起的GPU作为计算机图形显示卡的关键部件，主要用于三维图形显示加速。它针对三维图形显示流程中各个关键环节的不同特点设计了顶点着色器、光栅化引擎、纹理贴图等多种专用计算单元，在一块GPU芯片中放置了数十个到数百个这种硬件优化的专用计算单元进行并行图形处理，其性能远远超过同时代CPU的图形处理性能。与CPU相比，GPU在并行计算能力和存储带宽上更具优势，因此GPU可以通过增加计算核单元和存储器控制单位来提高数据处理性能。近几年GPU的发展很快，其单浮点处理能力已经达到同期CPU的10倍，并且可编程性和功能大大扩展。

早期的GPU计算编程需要使用图形学的API，首先需要将数据打包成纹理，并且采用纹理渲染的方式完成计算任务，该方法需要具备图形学硬件和编程接口等相关专业知识，增加了计算程序的开发难度。2007年，英伟达公司发布了计算统一设备架构(ComputeUnified Device Architecture，CUDA)通用计算开发环境，在该环境下可以采用类似C语言进行程序开发，无需借助图形学API。CUDA并行计算开发环境在构架方面和传统CPU相比具有两个明显的优势：(1)采用了统一处理构架，可以充分利用过去分布在顶点渲染和像素渲染器的计算资源；(2)引入了共享存储器，支持线程间的通信。这两点使得CUDA架构步入通用计算领域。在2007-2011年间，许多科学研究工作采用CUDA实现了上百倍的计算加速，将原来需要一年时间的计算任务缩短到几天就可以完成，从而有效的加快了科学研究的进程。

由于二维图像点到三维点计算的固有的复杂性，在不牺牲算法的精度与稳定性的前提下，其时间复杂度难以大幅降低，通过GPU的并行计算能力，能够获得几倍的性能提升。但这种方法只能优化跟三维图形处理比较类似的算法，对于相位展开等复杂算法，则无法优化，仍然只能采用逐像素串行计算的方法在CPU上进行，并且由于该方法需要频繁的访问GPU外部显示存储器(Video Memory)及PC机内存，受存储器及总线宽带限制，运行效率提升有限。

目前GPU正在朝着通用计算的方向发展。在新一代的GPU架构中，GPU由大量被称为流处理器(Streaming Processor,SP)的计算单元组成，每个计算单元具备自己的通用算数逻辑单元(Arithmetic Logic Unit，ALU)和独立的小容量内部数据存储器，相当于一个简化的计算机系统(CPU+存储器)，可独立执行用户编写的数值计算程序。由于受程序长度及内部存储器容量限制，其程序的粒度很小，一般仅仅副总处理一个标量(如光栅图像中的一个像素的一个色彩分量)，但这样也确保了程序的执行效率。流处理器采用SIMT(SingleInstruction，Multiple Thread，单指令、多线程)模式，一个流处理器同时处理数十个到数百个计算线程(Thread)，当某个线程需要获取外部的全局数据而需要等待时，流处理器会挂起该线程并快速切换到另外一个等待运行的线程，从而使流处理器始终处于满负荷运行的状态，解决了因访问外部存储器存在延迟导致的性能瓶颈问题，使GPU计算真正成为一种面向大规模、细粒度并行计算的有效手段，并将被应用到更多的领域。

发明内容

本发明的目的在于提供一种基于GPU加速的实时三维测量系统及方法。

本发明的技术方案如下：

一种基于GPU加速的实时三维测量系统，该系统由CPU、GPU、PC机内存和GPU外部显示存储器所组成，所述PC机内存储存有两个相机的图像数据，所述PC机内存的数据输出端与所述CPU的数据输入端连接，以将系统参数和图像数据发送至CPU，所述CPU与所述GPU信号相连，所述GPU中设计有核函数，由CPU将系统参数和图像数据转送至GPU，并启动核函数，所述GPU外部显示存储器与所述GPU信号相连，以储存系数参数和图像数据，所述GPU的数据输出端与所述PC机内存的数据输入端连接，图像数据通过所述GPU的核函数对其像素点进行并行计算后，将计算得到的三维数据传送回所述PC机内存中进行保存，紧接着所述GPU提示所述CPU传入新像素点的数据。

进一步的，所述GPU依次通过图像畸变校正、相位计算、图像匹配、三维重构后得到三维数据。

进一步的，所述GPU包括多个流处理器，每个流处理器包括一个或多个线程块，每个线程块包括若干个可相互通信的线程。

进一步的，所述流处理器设有八个。

进一步的，每三十二个连续线程形成一线程束。

进一步的，所述GPU外部显示存储器包括片上存储器和片下存储器两大类，所述片上存储器包括寄存器、局部存储器和共享存储器，所述片下存储器包括全局存储器、常数存储器和纹理存储器。

一种基于GPU加速的实时三维测量方法，该方法为上述所述的基于GPU加速的实时三维测量系统中GPU对于动态物体三维面测量的计算过程，其包括以下步骤：

(1)图像畸变校正

采用图像变换的方式将有畸变的图像变换成无畸变的图像；

(2)相位计算

提取三组相移图像中对应像素的灰度值，并计算出每个像素的相位值；

(3)图像匹配

图像中每个像素独立计算对应点；

(4)三维重构

根据预先标定的摄像机参数，采用立体视觉原理进行三维重构。

步骤(4)中，当第一个相机像素点搜索到第二个相机图像上的对应点时，其方程组如下：

其中，s和s’为比例因子，M和M’为两个相机的投影仪矩阵，由相机标定参数计算得到，变换式为：

其中，(X_w，Y_w，Z_w)^T即为待求解的三维坐标。

相对于现有技术，本发明的有益效果在于：

本发明是在CUDA统一计算平台下，采用图形处理器(Graphical ProcessingUnit，GPU)进行大规模细粒度并行计算，实现包括相移解相、二维图像点到三维点计算。根据GPU本身硬件结构的特点，可以同时开辟超多线程，令每个像素的三维计算过程并行完成，将原先在中央处理器(Central Processor Unit，CPU)中串行完成的过程高度并行化，从而有效提高全时间分辨率、全空间分辨率的动态物体三维面测量的计算效率，为强实时性动态物体三维面测量应用需求提供技术基础。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述GPU线程结构模型示意图；

图2为本发明所述基于GPU加速的实时三维测量系统的原理框图；

图3为本发明所述动态三维测量并行算法框架设计图；

图4为本发明所述GPU外部显示存储器的模型示意图；

图5为本发明所述优化后的GPU三维并行计算模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例

本发明提供一种基于GPU加速的实时三维测量方法，该方法基于GPU+CPU混合架构来实现动态物体三维测量的实时计算，在CUDA编程环境下，CPU为主机(Host)，GPU为设备(Device)，CPU和GPU需要协同工作，完成计算任务。其中，CPU处理逻辑性强的计算和需要串行完成的计算，而GPU则执行可高度并行处理任务。在GPU上运行的并行计算函数称为核函数(Kernel)。一个完整的CUDA程序则是由一系列核函数所执行的并行步骤和主机端的串行处理步骤共同组成。理想情况下，CPU串行代码主要是为了进行数据划分和设备初始化，并且启动与清理核函数；而GPU代码则是完成尽可能多的计算任务。一个CUDA程序通常一次包含以下几个步骤：(1)初始化输入数据；(2)分配主机端和设备端内存；(3)将主机端内存的数据传送到已分配空间的显存中；(4)调用核函数进行计算；(5)将计算结果从设备端显存拷贝回主机端内存中；(6)回收资源，完成计算。

计算过程中，CUDA将开启超多线程，然后由硬件调度和执行这些线程。如图1所示，执行超多线程的核函数的组织形式是线程网格(Grid)，网格中包含若干个线程块(Block)，而线程块中又包含若干个线程。实质上，核函数是以线程块为单位执行，线程块内的线程可以相互通信。因此网格就是一系列可以被执行的线程块，该模型可以让同一段代码执行在不同处理能力的GPU的硬件上，从而增强了编程的适用性。

CUDA程序的最终目的是在最短的时间内完成整个计算过程。因此，在设计并行程序之前，首先对测量系统的整个三维计算过程进行合理的任务划分，粗略的评估各个计算任务的计算量和可并行程度。

动态物体三维面测量的整个计算过程分为以下四个步骤：

(1)图像畸变校正。对应点计算过程是基于小孔成像的线性模型，而相机镜头畸变会引入非线性成分从而导致误差，故需要对相机采集的每一幅图像进行去畸变校正。根据图像畸变模型，如果通过实际图像中的点坐标求解理想无畸变的点坐标需要采用迭代计算来获取较好的计算精度，该方法比较复杂。为此，可以采用图像变换的方法将有畸变的图像变换成无畸变的图像，从理想无畸变的图像到实际图像的映射关系得知，只需要知道理想图像中每个点在实际图像中的亚像素坐标便可通过周围领域的像素点的灰度值插值出理想图像点的灰度。因此可以通过预先计算理想图像中每个像素在实际图像中的坐标，然后作为查找表，图像校正过程中可以快速的索引相邻像素灰度，计算理想图像中每个像素点的灰度值，由于计算过程是图像中每个像素依次进行，计算过程相互独立，因此每个像素的计算可以独立完成。

(2)相位计算。该计算过程是提取三组相移图像中对应像素的灰度值，并计算出每个像素的相位值，该计算过程不存在相邻像素相关性，可以实现并行。

(3)图像匹配。该过程图像中每个像素独立计算对应点，可并行完成。

(4)三维重构。匹配完成后，根据预先标定的摄像机参数，采用立体视觉原理进行三维重构。当第一个相机像素点搜索到第二个相机图像上的对应点时，其方程组如下：

其中，(X_w，Y_w，Z_w)^T即为待求解的三维坐标。根据上式可以求解出每个像素对应的三维坐标。

通过上述分析可知，本方法四个计算过程都具有像素独立性，计算的重复单元都是以像素为单位，可以达到很高的计算密度，非常适合采用超多线程进行并行计算。

该方法的原理示意图如图2所示，一种基于GPU加速的实时三维测量系统，由CPU、GPU、PC机内存和GPU外部显示存储器所组成，所述PC机内存储存有两个相机(相机1和相机2)的图像数据，PC机内存的数据输出端与CPU的数据输入端连接，以将系统参数和图像数据发送至CPU，CPU与GPU信号相连，GPU中设计有核函数，由CPU将系统参数和图像数据转送至GPU，并启动核函数，GPU外部显示存储器与GPU信号相连，以储存系数参数和图像数据，GPU的数据输出端与PC机内存的数据输入端连接，图像数据通过GPU的核函数对其像素点进行并行计算后，将计算得到的三维数据传送回PC机内存中进行保存，紧接着GPU提示所述CPU传入新像素点的数据，CPU会立刻将新像素点的数据传入GPU中，依次处理，并最终实现实时三维计算。

结合图3所示，计算时，CPU从相机采集的图像数据流中取出图片，与系统参数一起传送到GPU。GPU设计核函数，依次通过图像畸变校正、相位计算、图像匹配、三维重构。最后将计算结果(三维数据)传送回主机端内存进行保存。

所述GPU包括八个流处理器，每个流处理器包括一个或多个线程块，每个线程块包括若干个可相互通信的线程。设计核函数时，首先需要考虑网格和线程块的唯独。根据CUDA的执行模型，网格中每个线程块会被分配到各个流处理器中。CUDA的核函数实质上是以线程块为执行单位，一个线程块必须分配到一个流处理器中，

而线程块中每一个线程发射到流处理器上执行。一个流处理器中可以同时存在多个活动的线程块，从而可以隐藏访问延时。一般情况下，流处理器上至少需要6个以上的活动线程块才能更好的隐藏延时，因此网格的维度越大越好。而线程块的维度则需要考虑数据划分。实际运算过程中，线程块会划分为更小的线程束(Wrap)。线程束一般包含连续的32个线程，因为流处理器的工作频率是GPU的两倍，每两个流处理器周期GPU才发送一条指令，在这段时间内8个流处理器在可执行16个线程，也就是半线程束(Half-wrap)。故当半线程束对全局内存进行访问时，如果能满足合并访问的条件，则只需要一次传输就可以处理这些线程的访存需求，从而显著的提高CUDA程序的执行效率。因此，线程块中的线程数目应该是32的整数倍，并且维度的尺寸应该是16的整数倍。

而对于存储器带宽是计算机性能的瓶颈之一，处理器的计算能力通常远远超过内存访问的带宽。GPU的高速存储带宽是超多线程得以高效并行的基础，因此优化存储器的使用，避免存储带宽瓶颈显得尤为重要。通常，半个线程束(16个线程)对全局内存进行访问时，如果按照一定字长访问经过对齐的段，则只需要一次传输就可以处理完成，因此合并访存能大大提高程序的执行效率。如图4所示，所述GPU外部显示存储器包括片上存储器和片下存储器两大类，片上存储器包括寄存器、局部存储器和共享存储器，此类存储器访存延时很小，但存储容量有限，通常仅在KB级别。片下存储器包括全局存储器、常数存储器和纹理存储器，此类存储器可以被所有的线程访问，全局存储器的存储容量可达到GB级别，常数存储器和纹理存储器属于读存储器，存储在显存中，因其都具缓存加速的功能，故访问速度比全局存储器要快，对非对齐访问有一定的加速能力。但常数存储器的容量大小只有64KB，而纹理存储器的容量则较大，非常适合图像处理和查找表技术。

通过对图像畸变校正、相位计算、图像匹配与三维重构四个过程的分析与测试，可以得到优化后的GPU三维计算模型。如图5所示，模型主要包含三层核函数，第一层是多个核函数采用流进行并发执行，图像与查找表都存储纹理，减少访存延时。将计算出的校正图像与相位查找表绑定为纹理，启动第二层核函数，进行相位计算，然后将计算出的相位图、纹理图与质量图全部绑定为纹理，启动第三层核函数开始图像匹配与三维重构。其中各层核函数的函数的线程块数量与线程块中线程数则是按上述分析结果取最优值。优化后整个GPU并行三维计算时间约为20毫秒，计算速度达到每秒50帧三维数据。其中，计算效率与在CPU上相比，提高了395倍。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GPU加速的实时三维测量系统，其特征在于，该系统由CPU、GPU、PC机内存和GPU外部显示存储器所组成，所述PC机内存储存有两个相机的图像数据，所述PC机内存的数据输出端与所述CPU的数据输入端连接，以将系统参数和图像数据发送至CPU，所述CPU与所述GPU信号相连，所述GPU中设计有核函数，由CPU将系统参数和图像数据转送至GPU，并启动核函数，所述GPU外部显示存储器与所述GPU信号相连，以储存系数参数和图像数据，所述GPU的数据输出端与所述PC机内存的数据输入端连接，图像数据通过所述GPU的核函数对其像素点进行并行计算后，将计算得到的三维数据传送回所述PC机内存中进行保存，紧接着所述GPU提示所述CPU传入新像素点的数据。

2.根据权利要求1所述的基于GPU加速的实时三维测量系统，其特征在于，所述GPU依次通过图像畸变校正、相位计算、图像匹配、三维重构后得到三维数据。

3.根据权利要求1所述的基于GPU加速的实时三维测量系统，其特征在于，所述GPU包括多个流处理器，每个流处理器包括一个或多个线程块，每个线程块包括若干个可相互通信的线程。

4.根据权利要求3所述的基于GPU加速的实时三维测量系统，其特征在于，所述流处理器设有八个。

5.根据权利要求3所述的基于GPU加速的实时三维测量系统，其特征在于，每三十二个连续线程形成一线程束。

6.根据权利要求1所述的基于GPU加速的实时三维测量系统，其特征在于，所述GPU外部显示存储器包括片上存储器和片下存储器两大类，所述片上存储器包括寄存器、局部存储器和共享存储器，所述片下存储器包括全局存储器、常数存储器和纹理存储器。

7.一种基于GPU加速的实时三维测量方法，其特征在于，该方法为权利要求1～6任意一项所述的基于GPU加速的实时三维测量系统中GPU对于动态物体三维面测量的计算过程，其包括以下步骤：