CN108765382B

CN108765382B - 基于gpu的丰度估计并行计算方法

Info

Publication number: CN108765382B
Application number: CN201810461103.6A
Authority: CN
Inventors: 宋梅萍; 于纯妍; 黄金; 张建祎; 王玉磊; 李森
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2022-06-24
Anticipated expiration: 2038-05-15
Also published as: CN108765382A

Abstract

本发明公开了一种基于GPU的丰度估计并行计算方法，包括：通过CPU载入原始高光谱像元数据H以及端元数据M，并将所述原始高光谱像元数据H以及端元数据M发送至GPU显存；CPU调用GPU核函数，基于ROVP算法计算各端元m_i的丰度α_i；所述GPU将计算结果返回至CPU端，并由CPU端输出。通过上述方案实现了基于CUDA库的ROVP‑C算法和基于CUBLAS库的ROVP‑L算法，与传统的串行算法比较分析可知，本发明提出的算法计算速度快，有效提高了丰度估计运行效率。

Description

基于GPU的丰度估计并行计算方法

技术领域

本发明涉及高光谱遥感技术领域，具体说涉及一种基于GPU的丰度估计并行计算方法。

背景技术

高光谱遥感技术是近年来迅速发展起来的一种全新遥感技术。高光谱遥感数据涵盖了自然界中所有地物，由于数据复杂性以及空间分辨率的限制使其每个端元包含了众多物质信息，其中包括大量混合像元的存在，从而增加了数据分析的难度。丰度估计是高光谱混合像元分解技术中最重要的主题之一，其目的是精确分析混合像素的比重。目前常用的高光谱遥感混合像元分解算法均采用串行处理思路，受限于高光谱遥感图像自身空间分辨率、光谱分辨率等因素造成的大数据、冗余多等问题，算法计算过程复杂度难以降低。采用传统的串行处理方法，执行过程中高达数百亿浮点运算严重影响计算机执行速度，时间消耗巨大，无法满足混合像元分解的实时处理需求。因此更适于进行数据密集型和计算密集型计算GPU在高光谱遥感领域应用前景广阔。

正交向量投影算法(Orthogonal Vector Projection，OVP)采用Gram-Schmidt正交化估计混合像元中端元的丰度，不涉及任何矩阵求逆过程，仅存在类似于最小二乘误差(Linear Square Estimation，LSE)和正交子空间投影(Orthogonal SubspaceProjection，OSP)算法的重新计算问题，当有一个新的端元被添加到端元矩阵M中时，OVP算法还需要重新计算新的端元m_p+1,当p很大时，会使计算时间大大增加。近期有研究者提出了一种名为递归的正交向量投影(Recursive Orthogonal Vector Projection,ROVP)的新算法，该算法是OVP算法的延伸，可以将一些已经计算过的重要的结果用到下一次迭代中，则计算成本将明显降低，并且通过实验证明当估计一个或者所有端元的丰度时，ROVP算法都是最快的，优于OVP算法，并且该算法适合于并行计算，本发明正以此为契机，对ROVP算法的并行设计进行深入分析。

发明内容

鉴于现有技术的不足，本发明的目的是要提供一种基于GPU的丰度估计并行计算方法，采用ROVP算法对高光谱图像进行丰度估计，以提高运算效率。

本发明的技术方案如下：

一种基于GPU的丰度估计并行计算方法，其特征在于，步骤包括：

通过CPU载入原始高光谱像元数据H以及端元数据M，并将所述原始高光谱像元数据H以及端元数据M发送至GPU显存；

CPU调用GPU核函数，基于ROVP算法计算各端元m_i的丰度α_i；

所述GPU将计算结果返回至CPU端，并由CPU端输出。

根据本发明实施例的另一方面，还提供了一种基于GPU的丰度估计并行计算系统，其特征在于包括：图像数据载入单元，通过CPU载入原始高光谱像元数据H以及端元数据M，并将所述原始高光谱像元数据H以及端元数据M发送至GPU显存；计算单元，通过CPU调用GPU核函数，基于ROVP算法计算各端元m_i的丰度α_i；输出单元，用以将所述GPU计算结果返回至CPU端，并由CPU端输出。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的方法。

本发明是在ROVP算法基础上提出的基于GPU的丰度估计并行计算方法，实现了基于CUDA的ROVP-C算法和基于CUBLAS库的ROVP-L算法，与传统的串行算法比较分析可知，本发明提出的算法运行速度快，有效提高了丰度估计的运行效率。

附图说明

为了更清楚的说明本发明的实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明丰度估计计算方法流程图；

图2为基于CUDA的ROVP-C算法流程图；

图3为基于CUBLAS的ROVP-L算法流程图；

图4为实验数据图像；

图5为CPU串行、ROVP-C及ROVP-L三种算法的时间对比情况；

图6为ROVP-C算法和ROVP-L算法的加速比情况；

图7为OVP-GPU、ROVP-C及ROVP-L三种并行算法的时间对比情况；

图8(a)为CPU串行算法在端元个数为5的情况下解混第5个端元所对应的丰度估计结果图；

图8(b)为CPU串行算法在端元个数为10的情况下解混第5个端元所对应的丰度估计结果图；

图8(c)为CPU串行算法在端元个数为15的情况下解混第5个端元所对应的丰度估计结果图；

图9(a)为ROVP-C算法在端元个数为5个的情况下解混第5个端元所对应的丰度估计结果图；

图9(b)为ROVP-C算法在端元个数为10个的情况下解混第5个端元所对应的丰度估计结果图；

图9(c)为ROVP-C算法在端元个数为15个的情况下解混第5个端元所对应的丰度估计结果图；

图10(a)表示ROVP-L算法在端元个数为5个的情况下解混第5个端元所对应的丰度估计结果图；

图10(b)表示ROVP-L算法在端元个数为10个的情况下解混第5个端元所对应的丰度估计结果图；

图10(c)表示ROVP-L算法在端元个数为15个的情况下解混第5个端元所对应的丰度估计结果图。

具体实施方式

为使本发明的实施例的目的、技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示：一种基于GPU的丰度估计并行计算方法，其特征在于，步骤包括：

A、通过CPU载入原始高光谱像元数据H以及端元数据M，并将所述原始高光谱像元数据H以及端元数据M发送至GPU显存。

B、CPU调用GPU核函数，基于ROVP算法计算各端元m_i的丰度α_i。具体包括：

S101、由GPU显存中调取高光谱像元数据H，其中H＝{B₁,B₂,...,B_i,...,B_l}，

N为像元数目，l为波段数目，r为高光谱影像中各混合像元的光谱向量，以及端元数据M，其中M＝[m₁,m₂,...m_p-1,m_p]是大小为l×p的端元矩阵，m_i＝[m_i1,m_i2,...m_ip-1,m_ip]，

并设置初始迭代条件：

令

其中

表示第一个端元的正交向量，

表示向量

的模，定义Kernel矩阵相乘核函数求P，其中

具体包括：

a.利用cudaMalloc函数在GPU中取得一块显卡内存给矩阵v₁分配空间，再利用cudaMemcpy函数将矩阵v₁复制到显卡内存中。

b.设置调用内核函数时的线程数目，将线程数目设定为波段数的平方，即l×l。

c.调用内核函数，每个线程都要执行的是计算矩阵v₁和矩阵v₁的行号和列号对应下标的值的乘积运算

m和n分别为矩阵的行号和列号，将结果存储到矩阵P中。

d.再利用cudaMemcpy函数将计算结果从显存中复制回内存。

e.最后释放设备存储器中的空间。

S102、根据矩阵乘法和矩阵减法核函数对m_i进行递归运算，具体包括：

(1)在第j次递归中，将新添加的第j个端元m_j置于端元集M的最后，即[m₁,m₂…m_p,m_j]，其中2≤j≤P，调用GPU矩阵相乘和矩阵减法核函数根据以下公式计算正交于向量空间[m₁,m₂…m_p]的向量

(2)对于第i个端元，其中1≤i<j，调用GPU矩阵相乘和矩阵减法核函数根据以下公式计算正交于向量空间[m₁,m₂…m_i-1]的向量

(3)调用GPU矩阵相乘和矩阵减法核函数根据以下公式计算正交于向量空间[m₁,m₂…,m_j-1,m_j]的向量

其中矩阵减法的具体步骤如下：

a.利用cudaMalloc函数在GPU中取得一块显卡内存给矩阵分配空间，再利用cudaMemcpy函数将矩阵复制到显卡内存中。

c.调用内核函数，每个线程都要执行的是计算矩阵

和矩阵B的行号和列号对应的下标的减法运算，将计算结果返回到矩阵C。

d.再利用cudaMemcpy函数将计算结果从显存中复制回内存，此时结果矩阵C中存放着波段数的平方个数据。

e.最后释放设备存储器中的空间。

(4)调用GPU矩阵加法核函数根据以下公式更新P：

其中矩阵加法具体步骤如下：

c.调用内核函数，每个线程都要执行的是计算矩阵

和矩阵

的行号和列号对应的下标的加法运算，将计算结果返回到矩阵P。

d.再利用cudaMemcpy函数将计算结果从显存中复制回内存，此时结果矩阵P中存放着波段数的平方个数据。

e.最后释放设备存储器中的空间。

S103、判断迭代次数j是否与P相等，如相等则执行步骤S104，否则执行步骤S102；

S104、提取满足停止迭代要求的

并计算端元m_i的丰度α_i：

其中

表示第i个端元正交于向量空间[m_i1,m_i2,...m_ij-1,m_ij]的向量，

表示向量

的转置，

表示像元r在

方向的投影。

C、所述GPU将计算结果返回至CPU端，并由CPU端输出。

如图2所示为本发明基于CUDA的ROVP-C算法流程图。

作为本发明的优选，本实施例还提供了基于CUBLAS库的ROVP-L算法的丰度估计并行计算方法，算法步骤与前述ROVP-C算法基本一样，区别在于该算法不需要建立矩阵相乘核函数，也不需调用矩阵相乘核函数，而是调用CUBLAS库函数来实现矩阵相乘。具体步骤包括：

S201、由GPU显存中调取高光谱像元数据H，其中H＝{B₁,B₂,...,B_i,...,B_l}，

并设置初始迭代条件：

令

其中

表示第一个端元的正交向量，

表示向量

的模，定义Kernel矩阵相乘核函数求P，其中

S202、根据CUBLAS库函数cublasDgemm以及矩阵减法核函数对P进行递归运算，包括：

(1)在第j次递归中，将新添加的第j个端元m_j置于端元集M的最后，即[m₁,m₂…m_p,m_j]，其中2≤j≤P，调用CUBLAS库函数cublasDgemm和矩阵减法核函数根据以下公式计算正交于向量空间[m₁,m₂…m_p]的向量

(2)对于第i个端元，其中1≤i<j，调用CUBLAS库函数cublasDgemm和矩阵减法核函数根据以下公式计算正交于向量空间[m₁,m₂…m_j-1]的向量

(3)调用CUBLAS库函数cublasDgemm和矩阵减法核函数根据以下公式计算正交于向量空间[m₁,m₂…,m_j-1,m_j]的向量

(4)调用GPU矩阵加法核函数根据以下公式更新P：

上述内容中基于CUBLAS库实现矩阵乘法的步骤包括：

a.使用cublasCreateHandle创建一个CUBLAS句柄。

b.使用cudaMalloc可以分配用于输入输出的设备内存。

c.使用cublasSetVector向分配好的设备内存填充输入数据。

d.调用cublasDgemm库来让GPU执行矩阵乘法操作。

e.使用cublasGetVector从设备内存中取出结果。

f.使用cudaFree和cublasDestroy来释放CUDA和CUBLAS资源。

S203、判断迭代次数j是否与P相等，如相等则执行步骤S204，否则执行步骤S202；

S204、提取满足停止迭代要求的

并计算端元m_i的丰度α_i：

其中

表示第i个端元正交于向量空间[m_i1,m_i2,...m_ij-1,m_ij]的向量，

表示向量

的转置，

表示像元r在

方向的投影。

C、所述GPU将计算结果返回至CPU端，并由CPU端输出。

图3所示为本发明基于CUBLAS的ROVP-L算法流程图。

下面通过具体实施例对本发明的技术方案及效果做进一步说明和验证：

本发明在模拟图像以及真实图像上的验证

实验平台及实验数据

实验平台搭建：实验机器为HP-PC Z240，硬件配置处理器为Intel(R)Core(TM)i7-6700 CPU@3.40GHz四核、内存64GB；显卡信息：NvidiaQuadro M2000(4GB/惠普)，显卡内存为4GB。软件平台中操作系统为Windows 7，开发环境Visual Studio 2013以及CUDA7.5。

实验数据采用的是拍摄于1997年美国内华达州的一个赤铜矿区的赤铜矿图像，大小为350×350，有189个波段。图4显示的是图像中第100个波段的图像。本文实验提取不定个数的端元进行实验操作，端元个数从3到80，记录串行ROVP，ROVP-C以及ROVP-L的结果以及并行OVP-GPU的结果。

实验结果比较

当选择端元个数依次为10、40、80时，测试串行的ROVP算法，ROVP-C以及ROVP-L时间的实验结果如表1所示，为了更明显的对比每一个算法的加速比情况，把实验结果以折线图的形式表示，由图5可清楚的看出各版本的执行时间。

表1各版本执行时间对比(单位：ms)

ROVP-C和ROVP-L算法的加速比情况如表2所示，其中加速比是通过用CPU串行算法所用的时间分别除以ROVP-C和ROVP-L算法所用时间得到的比值。

表2 ROVP-C与ROVP-L的加速比情况

表2中数据显示，ROVP-C算法可加速3.2～10.1倍不等；ROVP-L算法加速1.8～13.8倍不等。为了更明显的对比每一个算法的加速比情况，把实验结果以折线图的形式表示，图6为ROVP-C算法和ROVP-L算法的加速比情况。

当选择端元个数依次为10、40、80时，并行的OVP-GPU算法，ROVP-C以及ROVP-L三种并行算法时间比较如表3所示：

表3 OVP-GPU，ROVP-C以及ROVP-L三种并行算法时间比较

从表3可以看出，OVP-GPU和ROVP-C算法执行时间相当，随着端元个数的增加，算法所用时间也随着增加，其中ROVP-C算法时间优势稍有体现，而ROVP-L算法时间很稳定，随着端元个数增加时间几乎不变，为了更明显的对比每一个算法的时间走势，把实验结果以折线图的形式表示，图7表示三种并行算法的时间随着端元个数增加的变化，从图中可以清楚的看出当端元个数达到50个的时候，ROVP-L算法所用时间与ROVP-C所用时间几乎相等，但当端元个数大于50时，ROVP-L算法所用时间明显少于其他两种算法。

图8、图9、图10中的(a)、(b)、(c)三张图分别表示CPU串行算法、ROVP-C算法和ROVP-L算法在端元个数为5、15、30个的情况下解混第5个端元所对应的丰度情况的灰度图像，从图中可以看出，随着端元个数的增加解混的效果越好，并且ROVP-C和ROVP-L算法的解混效果都与CPU一致，从而证明了结果的准确性。

本发明实施例还提供了一种基于GPU的丰度估计并行计算系统，其特征在于包括：图像数据载入单元，通过CPU载入原始高光谱像元数据H以及端元数据M，并将所述原始高光谱像元数据H以及端元数据M发送至GPU显存；计算单元，通过CPU调用GPU核函数，基于ROVP算法计算各端元m_i的丰度α_i；输出单元，用以将所述GPU计算结果返回至CPU端，并由CPU端输出。需要说明的是，本发明实施例的基于GPU的丰度估计并行计算系统可以用于执行本发明实施例所提供的基于GPU的丰度估计并行计算方法；本发明实施例的基于GPU的丰度估计并行计算方法也可以通过本发明实施例所提供的基于GPU的丰度估计并行计算系统来执行。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。