CN111445503B

CN111445503B - 基于gpu集群上并行编程模型的金字塔互信息图像配准方法

Info

Publication number: CN111445503B
Application number: CN202010216762.0A
Authority: CN
Inventors: 陈小毛; 李佳昆; 纪元法; 孙希延; 黄建华; 付文涛; 李有明; 白杨
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-04-25
Anticipated expiration: 2040-03-25
Also published as: CN111445503A

Abstract

本发明公开了一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法，包括读取两幅原始图像，分别为基准图像和待配准图像，传输至MPI+OpenMP+CUDA并行端处理；分别对基准图像和待配准图像高斯模糊后进行目标次数下采样，得到对应的图像金字塔，并保存下采样结果；逐层对基准图像和待配准图像对应图像金字塔的每一层图像进行优化匹配，得到待配准图像映射到基准图像的变换参数；根据得到的变换参数，对待配准图像进行仿射变换，得到重叠图像。实现通过金字塔互信息值的计算和比较，提高图像配准的准确性，同时在MPI+OpenMP+CUDA并行端进行并行处理，提高配准方法实现的实时性，从而进一步缩短执行时间，提高配准效率。

Description

基于GPU集群上并行编程模型的金字塔互信息图像配准方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法。

背景技术

图像配准是对相同目标不同时相甚至不同传感器所成的两幅或多幅图像进行空间变换处理，从而得到在几何上能够对应起来的各组图像。图像配准的最终目标就是寻找一组点映射变换，这组变换把待配准图像中的点映射到参考图像中对应的点，从而使得待配准图像和参考图像在几何上一致，使得相同目标在不同图像上具有相同的坐标位置。但是现在的图像配准的准确性低，降低效率。

发明内容

本发明的目的在于提供一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法，旨在解决现在的图像配准的准确性低，降低效率的问题。

为实现上述目的，本发明提供了一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法，包括：

读取两幅原始图像，分别为基准图像和待配准图像，传输至MPI+OpenMP+CUDA并行端，两幅所述原始图像为单通道灰度图像；

分别对基准图像和待配准图像高斯模糊后进行目标次数下采样，得到对应的图像金字塔，并保存下采样结果；

逐层对基准图像和待配准图像对应图像金字塔的每一层图像进行优化匹配，得到待配准图像映射到基准图像的变换参数；

根据得到的变换参数，对待配准图像进行仿射变换，得到重叠图像。

用高斯核对第n层图像进行高斯模糊处理，具体包括：

采用5×5的高斯核进行一维高斯滤波和二维高斯滤波，所述二维高斯滤波为先进行一次横向滤波，再进行一次纵向滤波。

在一实施方式中，分别对基准图像和待配准图像高斯模糊后进行目标次数下采样，得到对应的图像金字塔，并保存下采样结果，具体包括：

用高斯核对第n层图像进行高斯模糊处理，提取行坐标和列坐标均为偶数的元素组成新图像，其中新图像的宽和高均是原始图像的一半。

在一实施方式中，逐层对基准图像和待配准图像对应图像金字塔的每一层图像进行优化匹配，得到待配准图像映射到基准图像的变换参数，具体包括：

对基准图像和待配准图像对应图像金字塔的一层图像进行一次目标优化匹配，得到本层图像优化配准参数，判断本层是否为金字塔底层；

若是，则得到待配准图像映射到基准图像的变换参数；

若否，则获取下一层图像数据进行优化匹配，直至为金字塔底层。

在一实施方式中，对基准图像和待配准图像对应图像金字塔的一层图像进行一次目标优化匹配，具体包括：

根据基准图像和待配准图像偏离情况输入的限定搜索范围，对待配准图像进行空间几何变换后与基准图像进行图像互信息值计算，得到信息熵。

在一实施方式中，根据基准图像和待配准图像偏离情况输入的限定搜索范围，对待配准图像进行空间几何变换后与基准图像进行图像互信息值计算，得到信息熵之后，所述方法还包括：

判断信息熵是否大于阈值，所述阈值为存储于CPU内降序排列在前的第一互信息值；

若否，则重新获取信息熵判断是否大于阈值，直至信息熵大于阈值；

若是，则更新存储于CPU内降序排列在前的第一互信息值及对应的变换参数，调整搜索参数，并判断本层图像搜索范围是否在目标搜索范围之内；所述目标搜索范围为上层图像搜索范围的两倍。

在一实施方式中，判断本层图像搜索范围是否在目标搜索范围之内；所述目标搜索范围为上层图像搜索范围的两倍，具体包括：

若是，则返回进行待配准图像的空间几何变换；

若否，则得到待配准图像映射到基准图像的变换参数。

本发明的一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法，通过读取两幅原始图像，分别为基准图像和待配准图像，传输至MPI+OpenMP+CUDA并行端，两幅原始图像为单通道灰度图像；分别对基准图像和待配准图像高斯模糊后进行目标次数下采样，得到对应的图像金字塔，并保存下采样结果；逐层对基准图像和待配准图像对应图像金字塔的每一层图像进行优化匹配，得到待配准图像映射到基准图像的变换参数；根据得到的变换参数，对待配准图像进行仿射变换，得到重叠图像。实现通过金字塔互信息值的计算和比较，提高图像配准的准确性，同时在MPI+OpenMP+CUDA并行端进行并行处理，提高配准方法实现的实时性，从而进一步缩短执行时间，提高配准效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法的流程示意图；

图2是MPI+OpenMP+CUDA并行编程模型的金字塔互信息图像配准流程图；

图3是金字塔每层图像互信息配准流程图；

图4是MPI+OpenMP+CUDA并行编程模型模式的工作流程图；

图5是两次一维滤波实现二维滤波示意图；

图6是图像下采样示意图；

图7是图像空间变换示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为更好地理解本发明实施例，先对其所涉及的相关概念做如下说明：

消息传递接口(MPI)是消息传递操作的规范。MPI当前是在分布式内存体系结构上开发HPC应用程序的实际标准。MPI提供了可移植性，标准化，性能和功能，并且包括点对点消息传递和集体(全局)操作，所有这些操作都适用于用户指定的进程组。MPI提供了大量用于编写，调试和性能测试分布式程序的库。目前的系统当前使用MPICH，这是MPI标准的便携式实现。

开放式多处理(OpenMP)是共享内存体系结构的基础，它提供了多线程的能力。通过从OpenMP线程库调用子例程调用并插入OpenMP编译器指令，可以轻松地使循环并行化。这样，线程可以直接从本地共享内存中获取新任务，即未处理的循环迭代。OpenMP是共享内存并行性的开放规范。OpenMP的基本思想是数据共享并行执行。

CUDA针对NVIDIA GPU的加速编程，NVIDIA提出了计算统一设备体系结构(CUDA)模型，该模型通过在加速GPU内核上运行预设数据来实现大规模并行。在CUDA模型中，顺序代码通过CUDA内核并行执行。

请参阅图1，是本发明实施例提供的一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法的流程示意图。具体的，所述基于GPU集群上并行编程模型的金字塔互信息图像配准方法可以包括以下步骤：

S101、读取两幅原始图像，分别为基准图像和待配准图像，传输至MPI+OpenMP+CUDA并行端处理，两幅所述原始图像为单通道灰度图像；

本发明实施例中，首先需要读取原始图像，记基准图像为图像X，待配准图像为图像Y，因为在后续使用中是计算灰度互信息，所以在读取图像时把图像作为单通道灰度图像进行读取，避免后续的通道转换造成的时间消耗。将读取的基准图像X和待配准图像Y传递到MPI+OpenMP+CUDA并行端分别记为图像X’和图像Y’，留待下一步在GPU端构造图像金字塔使用。

S102、分别对基准图像和待配准图像高斯模糊后进行目标次数下采样，得到对应的图像金字塔，并保存下采样结果；

本发明实施例中，对每次下样的结果进行保存，方便后续步骤直接使用，避免重复计算，提高效率。图像金字塔基本原理对一张图像不断进行模糊采样，得到不同分辨率的图像，同时每次得到的新图像的宽与高均是原始图像的一半，这个过程称为构造图像金字塔。要从金字塔第n层生成第n+1层，先用高斯核对第n层图像进行高斯模糊处理，提取行坐标和列坐标均为偶数的元素组成新图像。用公式(1)表达为：

其中W(m,n)＝w(m)*w(n)是长和宽均为5的高斯卷积核。

在MPI+OpenMP+CUDA并行端构造图像金字塔。图像金字塔的构造首先要对图像进行高斯滤波，采用5×5的高斯核进行一维高斯滤波和二维高斯滤波，具体的，一维滤波的MPI+OpenMP+CUDA并行实现，对于二维滤波，可以分解为2次一维滤波，即先进行一次横向滤波，将得到的横向滤波的结果再进行一次纵向滤波，得到一个滤波后的结果，结果如图5所示。在构造图像金字塔时，将滤波后得到的图像数据进行下采样，得到图像金字塔新一层的图像，采样示意图如图6所示。至于图像金字塔的层数，经过实际比较，3层图像能够精确并且迅速的得到配准参数。

S103、逐层对基准图像和待配准图像对应图像金字塔的每一层图像进行优化匹配，得到待配准图像映射到基准图像的变换参数；

本发明实施例中，对基准图像和待配准图像对应图像金字塔的一层图像进行一次目标优化匹配，得到本层图像优化配准参数，判断本层是否为金字塔底层；若是金字塔底层，则得到待配准图像映射到基准图像的变换参数；若不是金字塔底层，则获取下一层图像数据进行优化匹配，直至为金字塔底层。具体优化配准过程为根据基准图像和待配准图像偏离情况输入的限定搜索范围，可以较大程度避免不必要的搜索，搜索范围要取可能较大的范围，否则可能搜索不到最优匹配点；对待配准图像进行空间几何变换后与基准图像进行图像互信息值计算，得到信息熵，每一层图像配准以后，搜索范围进一步减小，在较大图像上搜索时速度能得到较大程度的提升；判断信息熵是否大于阈值，所述阈值为存储于CPU内降序排列在前的第一互信息值；若否，则重新获取信息熵判断是否大于阈值，直至信息熵大于阈值；若是，则更新存储于CPU内降序排列在前的第一互信息值及对应的变换参数，调整搜索参数，并判断本层图像搜索范围是否在目标搜索范围之内；所述目标搜索范围为上层图像搜索范围的两倍。若在目标搜索范围之内，则返回进行待配准图像的空间几何变换；若不在目标搜索范围之内，则得到待配准图像映射到基准图像的变换参数。具体的在上一层图像配准的基础上进行进一步精确配准，直到本层图像为原始输入图像X和Y为止；得到待配准图像映射到基准图像的最佳变换参数。

互信息算法基本原理：用图像的信息熵表示互信息：

I(X,Y)＝H(X)+H(Y)-H(X,Y)； (2)

其中，X和Y表示两幅图像，H(X)和H(Y)分别表示图像X和Y的信息熵，描述了随机变量的不确定性，H(X,Y)为两者的联合熵。定义如下：

其中x∈X,y∈Y，P_X(x)和P_Y(y)分别是图像X和Y完全独立时的概率分布。

是图像X和Y的联合概率分布。

以亮度图像为例，亮度级越多像元亮度值越分散，熵值越大；同时，熵作为灰度直方图形状的测度，当图像直方图具有一个或多个尖峰时，熵值较小；相反，如果直方图比较平坦则熵值较大。当两幅图像在空间位置匹配时，其重叠部分所对应像元对的亮度互信息达到最大值，以此时对应的变换参数作为空间变换参数，可以达到准确图像配准的目的。

进行空间几何变换具体为：空间几何变换的参数是三维的{x,y,z}，其中x代表横向位移，向右为正，向左为负；y表示纵向位移，向下为正，向上为负；x和y的单位都是像素点个数；z表示方向位移，以图像中心为旋转中心，顺时针旋转z为正，逆时针旋转z为负，单位为角度。对图像空间变换的示意图如图7所示。图中填充区域为从原图得到的数据映射到新图的区域，空白部分没有原图对应的位置，自动填充0。这部分在MPI+OpenMP+CUDA并行端实现是通过参数和原始图像点的位置信息，计算得到该像素点在新图像中的位置，如果该位置不在图像范围之内，则对应线程闲置；若该位置在图像范围之内，直接进行数据拷贝。

请参阅图2和图3，MPI+OpenMP+CUDA并行端计算一次两幅图像互信息，得到在当前参数下两幅图像的互信息值，将当前互信息值传递回CPU与已经得到的最大互信息值进行比较，如果当前参数对应的互信息值小，继续进行下一参数的互信息计算；如果当前参数对应的互信息值大，则更新最大互信息值以及所对应的变换参数。由于得到的互信息值只是一个具体的值，MPI+OpenMP+CUDA并行端和CPU端传递数据很快，而后面的数值比较和数据更新控制性强，所以互信息值的比较和参数更新在CPU端进行。当一层金字塔图像的搜索完成得到本层的最优匹配后，要将本层的最优匹配结果应用到下一层图像最优搜索范围的设定之中。以本层最优搜索范围为{x,y,z}为例，这表示在本层上的最优匹配是待配准图像向右移动x个像素点，向下移动y个像素点，顺时针旋转z角度。而下一层图像是本层图像的2倍扩展，如果搜索足够精确，下一层图像的配准参数应该为{2x,2y,z}，水平和竖直方向取2个像素点的误差，角度取1度的误差，那么将上一层的搜索结果应用到下一层图像时搜索范围应该设定为{{2x-2,2x+2}{2y-2,2y+2}{z-1,z+1}}。

S104、根据得到的变换参数，对待配准图像进行仿射变换，得到重叠图像。

本发明是通过MPI+OpenMP+CUDA并行编程模型执行基于GPU集群上并行编程模型的金字塔互信息图像配准方法，MPI+OpenMP+CUDA并行编程模型缩写为“MOC”。MOC通过分别在节点间、节点内和加速NVIDIA GPUs设备上计算数据，提供粗粒度、细粒度和细粒度并行等三个层次的并行性。MOC优于现有的最先进的大型数据集计算。MOC在异构多处理器CPU和加速NVIDA GPU上的最佳实现中分别获得30％和40％的渐进加速，从而可以进一步缩短程序执行时间。混合CUDA集群环境下，该方法比以往的方案都能提高性能。具体的MOC包含三个主要级别的计算，如节点间、节点内和加速GPU设备。这三个并行计算级别的详细工作流程如图4所示。

节点间计算：在与MOC模型交互之前，需要确定目标系统的一些先决条件，包括主机CPU核及其体系结构、目标系统是较大集群时的机架数量、系统中的节点总数、用于加速计算的GPU设备以及GPU的类型、内存类型和级别。一旦确定了这些规范，并行计算区域就开始了。MOC基本上提供三个水平的平行区域，其中第一层和顶层通过节点间计算得到。节点间计算是通过MPI实现的，MPI在所有连接节点的主机CPU处理器之间进行通信。MPI定义了两种类型的进程，如主进程和从进程，其中主进程用秩“0”表示，从进程用非零秩表示。在跨进程分发数据之前，有一些基本的MPI语句是在MPI世界上定义这些列组和通信大小所必需的。继续并行计算，MPI主进程通过从进程将数据分布到所有连接的节点上。为了分发和接收数据，可以使用几种方法。对于MOC模型，实现了用于发送和接收数据的阻塞方法MPI_Send()和MPI_Recv()。虽然这些方法不如非阻塞的Isend()和Irec()有效，但是阻塞的方法保持同步，这种级别的并行性只提供粗略的粒度并行性。在通过CPU进程不信任数据之后，下一个并行计算区域如下所述启动。

节点内计算：节点内计算是第二级并行，即在节点内计算主机CPU核心上的分布式数据。此计算是在CPU线程上执行的。这些线程可以通过不同的并行编程模型进行并行化。OpenMP是并行化CPU线程最著名的并行编程模型之一。OpenMP也可用于对CPU核心和GPU设备进行编程。在MOC实现中，使用OpenMP编程实现CPU线程的并行化，实现了细粒度的并行。OpenMP编程模型包含一个用于启动并行区域的主要外部编译指示。用该编译指示编写的每个语句都是并行计算的。但是，为了实现细粒度的并行，实现了多个循环指令和部分指令，并对并行性进行了优化。在这些实用程序中，定义了并行度的第三级，称为GPU计算。为了优化资源，保留了与可用GPU设备数量相似的OpenMP线程数量。

加速GPU计算：MOC模型的第三级并行是通过对加速GPU设备的数据处理来实现的。每个CPU进程都为每个GPU设备保留。因此，循环语句每次都会保留特定的GPU设备，并将数据从主机传输到GPU设备。这个数据在CUDA内核中进一步计算，该内核在特定的GPU设备上运行代码。在这一阶段，数据在数千个核上并行计算，并获得更细的粒度。对于一个拥有大量GPU设备的集群系统，很难每次都写内核。然而，MOC模型包含一个通用形式的CUDA内核，它接收/返回模板格式的数据并相应地执行。完成GPU设备上的数据计算后，它将在主机核心上传输并由OpenMP线程从其启动位置控制。类似地，OpenMP在编译中完成其执行，并将数据返回到MPI从进程。MPI主线程从所有这些级别接收数据后，从从进程收集数据，并将结果返回给用户调用。这样，在MOC模型中实现了三级并行。

MPI+OpenMP+CUDA并行编程模型采用S1070和C1060两台GPU服务器组成混合型CUDA-GPU集群，两台GPU服务器连接千兆样本，与Intel i7服务器相连的S1070服务器采用双PCI总线通道，增强了内部通信。本发明以包含四个内核的英特尔i7作为控制组。为了通过CUDA执行MPI和OpenMP应用程序，在CUDA-GPU上结合MPI和OpenMP的最简单方法是使用CUDA编译器NVCC实现所有功能。NVCC编译器包装器比典型的mpicc编译器包装器复杂一些，因此比起其他方法，将MPI和OpenMP代码转换为.cu并使用NVCC进行编译更容易。基于一块GPU显卡的背景下的实现，一块GPU显卡缩短了算法并行部分的执行时间，从而提高了算法实现的实时性，但一块显卡的可用资源终究是有限制的，如何进一步将算法并行部分的运行时间缩短，提供更多的显卡，构建GPU集群，综合调度不同的显卡将是一个好的解决方案。本发明提供的基于GPU集群上并行编程模型的金字塔互信息图像配准方法根据由一个C1060和一个S1070组成的GPU集群中C1060 GPU节点的数量来划分循环迭代,然后分配给一个MPI进程的循环迭代由同一计算节点上的处理器核运行的CUDA并行处理,提高了算法实现的实时性，从而可以进一步缩短程序执行时间，提高了效率。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于GPU集群上并行编程模型的金字塔互信息图像配准方法，其特征在于，包括：

读取两幅原始图像，分别为基准图像和待配准图像，传输至MPI+OpenMP+CUDA并行端处理，两幅所述原始图像为单通道灰度图像；

逐层对基准图像和待配准图像对应图像金字塔的每一层图像进行优化匹配，得到待配准图像映射到基准图像的变换参数，对基准图像和待配准图像对应图像金字塔的一层图像进行一次目标优化匹配，得到本层图像优化配准参数，判断本层是否为金字塔底层，若是，则得到待配准图像映射到基准图像的变换参数，若否，则获取下一层图像数据进行优化匹配，直至为金字塔底层；

2.如权利要求1所述的基于GPU集群上并行编程模型的金字塔互信息图像配准方法，其特征在于，分别对基准图像和待配准图像高斯模糊后进行目标次数下采样，得到对应的图像金字塔，并保存下采样结果，具体包括：

3.如权利要求2所述的基于GPU集群上并行编程模型的金字塔互信息图像配准方法，其特征在于，用高斯核对第n层图像进行高斯模糊处理，具体包括：

4.如权利要求1所述的基于GPU集群上并行编程模型的金字塔互信息图像配准方法，其特征在于，对基准图像和待配准图像对应图像金字塔的一层图像进行一次目标优化匹配，具体包括：

5.如权利要求4所述的基于GPU集群上并行编程模型的金字塔互信息图像配准方法，其特征在于，根据基准图像和待配准图像偏离情况输入的限定搜索范围，对待配准图像进行空间几何变换后与基准图像进行图像互信息值计算，得到信息熵之后，所述方法还包括：

6.如权利要求5所述的基于GPU集群上并行编程模型的金字塔互信息图像配准方法，其特征在于，判断本层图像搜索范围是否在目标搜索范围之内；所述目标搜索范围为上层图像搜索范围的两倍，具体包括：

若是，则返回进行待配准图像的空间几何变换；

若否，则得到待配准图像映射到基准图像的变换参数。