CN106354479A

CN106354479A - 一种大量同构稀疏矩阵的gpu加速qr分解方法

Info

Publication number: CN106354479A
Application number: CN201610664905.8A
Authority: CN
Inventors: 周赣; 孙立成; 秦成明; 张旭; 柏瑞; 冯燕钧; 傅萌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2017-01-25
Anticipated expiration: 2036-08-12
Also published as: CN106354479B

Abstract

本发明公开了一种大量同构稀疏矩阵的GPU加速QR分解方法，所述方法包括如下步骤：在CPU上对稀疏矩阵A₁进行QR符号分解，得到Household变换矩阵V₁和上三角矩阵R₁的稀疏结构；对矩阵A₁各列进行并行化分层，且A₁～A_N具有相同的稀疏结构V₁、上三角矩阵稀疏结构R₁和并行化分层结果；CPU将QR分解所需数据传输给GPU；任务分配和设备内存优化：将对矩阵A₁～A_N的QR分解任务分配到GPU上的大量线程中执行，并根据合并访问原则优化内存使用；GPU中计算分层QR分解内核函数Batch_QR。该方法利用CPU控制程序的流程，GPU处理密集浮点运算，可以大幅提高大量同构稀疏矩阵的QR分解速度。

Description

一种大量同构稀疏矩阵的GPU加速QR分解方法

技术领域

本发明属于电力系统高性能计算应用领域，尤其涉及一种大量同构稀疏矩阵的GPU加速QR分解方法。

背景技术

潮流计算是电力系统中应用最广泛、最基本和最重要的一种电气运算。在电力系统运行方式和规划方案的研究中，都需要进行潮流计算以比较运行方式或规划供电方案的可行性、可靠性和经济性，在电力系统运行状态的实时监控中，需要采用在线潮流计算。传统的牛顿拉夫逊法潮流计算中，修正方程组求解时间占潮流计算时间的70％，修正方程组求解的计算速度影响程序的整体性能。

静态安全分析中的故障潮流是在基态电网上发生若干断线产生的，任何一个N-1断线故障都对应一个潮流，这些故障潮流的稀疏格式都是基态潮流稀疏格式的一个子集，其稀疏线性方程组具有统一的稀疏结构，求解计算具有并行性。对批量方程组系数矩阵的相同稀疏结构J矩阵进行QR符号分解后，得到Household变换矩阵V和上三角矩阵R矩阵的稀疏结构，根据R矩阵的稀疏结构，对矩阵J各列进行并行化分层。其中每层中的列的计算相互独立，没有依赖关系，天然可以被并行的计算处理，适合GPU加速。因此通过CPU和GPU之间合理的调度可以快速完成方程组系数矩阵进行QR分解，并求解稀疏线性方程组，国内外学者已经开始对GPU进行稀疏线性方程组加速求解的方法进行了研究，但是没有深入的优化线程设计，单纯从计算量的分配上研究计算线程设计，对线程计算方式，数据索引方式没有进行深入研究，无法使程序充分发挥GPU的优势。

因此，亟待解决上述问题。

发明内容

发明目的：针对现有技术的不足，本发明提供了一种适用于静态安全分析中批量潮流修正方程组的雅可比矩阵QR分解，可提高潮流计算速度，为在线分析提供基础的大量同构稀疏矩阵的GPU加速QR分解方法。

潮流计算：电力学名词，指在给定电力系统网络拓扑、元件参数和发电、负荷参量条件下，计算有功功率、无功功率及电压在电力网中的分布。

GPU：图形处理器(英语：Graphics Processing Unit，缩写：GPU)。

本发明公开了一种大量同构稀疏矩阵的GPU加速QR分解方法，所述方法包括如下步骤：

(1)稀疏结构相同的一系列n阶矩阵A₁～A_N构成大量同构稀疏矩阵，在CPU上对稀疏矩阵A₁进行QR符号分解，得到Household变换矩阵V₁和上三角矩阵R₁的稀疏结构；根据R₁矩阵的稀疏结构，对矩阵A₁各列进行并行化分层，且A₁～A_N具有相同的Household变换矩阵稀疏结构V₁、上三角矩阵稀疏结构R₁和并行化分层结果；

(2)CPU将QR分解所需数据传输给GPU；

(3)任务分配和设备内存优化：将对矩阵A₁～A_N的QR分解任务分配到GPU上的大量线程中执行，并根据合并访问原则优化内存使用；

(4)GPU中按层次递增的顺序计算分层QR分解内核函数Batch_QR。

其中，所述步骤(1)中，并行化分层将矩阵A₁的n列分配到M层中，属于同一层中的列可并行QR分解；每层包含的列的数量为L(k)，k表示层号；存储第k层中所有列号至映射表Map_k。

优选的，所述步骤(2)中，所述的QR分解所需数据包括矩阵A₁～A_N、矩阵维度n、矩阵V₁和矩阵R₁的稀疏结构、矩阵A₁的并行化分层结果。

再者，所述步骤(3)中，将N个同构稀疏矩阵A₁～A_N的同一列的QR分解工作分配给同一个线程块的不同线程处理；为保证合并内存访问，将矩阵A₁～A_N在内存中连续存放组成一个逻辑上为N行的大矩阵，然后进行转置操作；将矩阵V₁～V_N在内存中连续存放组成一个逻辑上为N行的大矩阵，然后进行转置操作。

进一步，所述步骤(4)中，GPU中的内核函数定义为Batch_QR<N_blocks，N_threads>，其中线程块大小N_threads固定为128；线程块数量N_blocks设计成变量，当对第k层进行计算时，线程块数量N_blocks＝L(k)，总线程数量为：N_blocks×N_threads；按照层次递增的顺序，启动内核函数Batch_QR<L(k)，N_threads>来分解属于第k层的所有列；Batch_QR<L(k)，N_threads>的具体计算流程为：

(4.1)CUDA自动为每个线程分配线程块索引blockID和线程块中的线程索引threadID；

(4.2)将blockID赋值给变量bid，第blockID号线程块中的128个线程负责分解矩阵A₁～A_N的第j＝Map_k(bid)列，其中：第threadID号线程负责计算矩阵A_t的第j列QR分解，t＝threadID+m×128，(m＝0，1，…，N/128)；

(4.3)第bid号线程块的threadID号线程中，判断t是否小于N，小于继续执行，否则该线程退出运行；

(4.4)变量i从1递增到j-1，如果R₁(i，j)≠0，执行以下计算：

1)计算变量β，计算公式为β＝2V_t(i：n，i)^T·A_t(i：n，j)；其中V_t(i：n，i)是Household变换矩阵V_t中第i列的第i～n行元素构成的向量，A_t(i：n，j)是矩阵A_t中第j列的第i～n行元素构成的向量；具体计算步骤：变量c从i递增到n计算：β+＝2V_t(c，i)×A_t(c，j)；

2)采用公式A_t(i：n，j)＝A_t(i：n，j)–β×V_t(i：n，i)，更新矩阵A_t的第j列，具体计算步骤如下：变量c从i递增到n计算：A_t(c，j)＝A_t(c，j)–β×V_t(c，i)；

(4.5)计算Household变换矩阵V_t的第j列：首先，采用公式a²＝A_t(j：n，j)^T·A_t(j：n，j)计算中间变量a，具体计算步骤：变量c从j递增到n计算：a²+＝A_t(c，j)×A_t(c，j)；接着，计算，V_t(j：n，j)＝A_t(j：n，j)–ae_j(j：n)，其中是e_j是第j个元素为1的单位向量，具体计算步骤：变量c从j递增到n计算：V_t(c，j)＝A_t(c，j)–ae_j(c)；然后，采用公式b²＝V_t(j：n，j)^T·V_t(j：n，j)计算中间变量b，具体计算步骤：变量c从j递增到n计算：b²+＝V_t(c，j)×V_t(c，j)；最后，计算，V_t(j：n，j)＝V_t(j：n，j)/b，具体计算步骤：变量c从j递增到n计算：V_t(c，j)＝V_t(c，j)/b；

(4.6)更新矩阵A_t的第j列：A_t(j，j)＝a，A_t(j+1：n，j)＝0；

(4.7)t＝t+128，返回(4.3)。

有益效果：与现有技术比，本发明的有益效果为：首先，本发明利用CPU控制程序的流程并处理基础数据和GPU处理密集的浮点运算相结合的模式提高了大量同构稀疏矩阵的QR分解速度，解决了电力系统静态安全性分析中潮流计算耗时大的问题，且采用CPU对大量同构稀疏矩阵的相同稀疏格式A₁进行QR符号分解，根据R₁矩阵的稀疏格式，可以减少不必要的浮点计算；其次，在CPU中将矩阵A₁进行并行化分层，并将结果传给GPU，减少GPU对逻辑操作的运算；再者，将批量矩阵的QR分解工作分配到大量的线程中执行，并根据GPU的访存模式优化设备内存使用，使GPU实现合并访存，内存操作速度提高了接近16倍；最后GPU中按层次递增的顺序启动内核函数Batch_QR，取得了单个稀疏矩阵QR分解的平均计算时间为1.67ms的效果。

附图说明：

图1为本发明内核函数任务分配示意图；

图2为本发明的实例测试结果；

图3为本发明的实例性能分析；

图4为本发明的流程示意图。

具体实施方式：

下面结合附图对本发明的技术方案作进一步说明。

如图4所示，本发明一种大量同构稀疏矩阵的GPU加速QR分解方法，所述方法包括如下步骤：

(1)大量同构稀疏矩阵指稀疏结构相同的一系列n阶矩阵A₁～A_N，在CPU上对其中稀疏矩阵A₁进行QR符号分解，得到Household变换矩阵V₁和上三角矩阵R₁的稀疏结构，符号分解之后的A₁矩阵的稀疏结构等于V₁+R₁；根据R₁矩阵的稀疏结构，对矩阵A₁各列进行并行化分层；因为A₁～A_N的稀疏结构相同，所以A₁～A_N具有相同的Household变换矩阵稀疏结构V₁、上三角矩阵稀疏结构R₁和并行化分层结果；

(2)CPU将QR分解所需数据传输给GPU；

(4)GPU中按层次递增的顺序启动分层QR分解内核函数Batch_QR。

一、CPU中对稀疏矩阵A₁进行QR符号分解和并行化分层

大量同构的一系列n阶稀疏矩阵A₁～A_N具有相同的稀疏结构，在CPU上对其中稀疏矩阵A₁进行QR符号分解，得到Household变换矩阵V₁和上三角矩阵R₁的稀疏结构，符号分解之后的A₁矩阵的稀疏结构等于V₁+R₁；根据R₁矩阵的稀疏结构，对矩阵A₁各列进行并行化分层；因为A₁～A_N的稀疏结构相同，所以A₁～A_N具有相同的Household变换矩阵稀疏结构V₁、上三角矩阵稀疏结构R₁以及并行化分层结构。并行化分层将矩阵A₁的n列分配到M层中，属于同一层中的列可并行QR分解；每层包含的列的数量为L(k)，k表示层号；存储第k层中所有列号至映射表Map_k。

其中QR符号分解原理和并行化分层原理参见“Direct Methods for SparseLinear Systems”Timothy A.Davis，SIAM，Philadelphia，2006。本专利使用的QR符号分解和并行化分层程序参见CSparse：a Concise Sparse Matrix package.VERSION 3.1.4，Copyright(c)2006-2014，Timothy A.Davis，Oct 10，2014。

二、CPU将QR分解所需数据传输给GPU

CPU读取电网基础数据，并将矩阵A₁的分层结果和电网基础数据在内核函数开始执行之前一次性传输给GPU，减少CPU与GPU之间的数据交互。所需数据包括：矩阵A₁～A_N、矩阵维度n、矩阵V₁和R₁的稀疏结构、分层数量M层，每层包含的列的数量为L(k)，映射表Map_k。

三、任务分配和设备内存优化

将N个同构稀疏矩阵A₁～A_N的同一列的QR分解工作分配给同一个线程块的不同线程处理，具体的任务分配模式，如图1所示；为保证合并内存访问，将矩阵A₁～A_N在内存中连续存放组成一个逻辑上为N行的大矩阵，然后进行转置操作；将矩阵V₁～V_N在内存中连续存放组成一个逻辑上为N行的大矩阵，然后进行转置操作。

四、GPU中按层次递增的顺序启动分层QR批处理分解内核函数

GPU中的内核函数定义为Batch_QR<N_blocks，N_threads>，其中线程块大小N_threads固定为128；线程块数量N_blocks设计成变量，当对第k层进行计算时，线程块数量N_blocks＝L(k)，总线程数量为：N_blocks×N_threads；按照层次递增的顺序，调用内核函数Batch_QR<Ln(k)，N_threads>来分解属于第k层的所有列。

Batch_QR<Ln(k)，N_threads>的计算流程为：

(1)CUDA自动为每个线程分配线程块索引blockID和线程块中的线程索引threadID；

(2)将blockID赋值给变量bid，第blockID号线程块中的128个线程负责分解矩阵A₁～A_N的第j＝Map_k(bid)列，其中：第threadID号线程负责计算矩阵A_t的第j列QR分解，t＝threadID+m×128，(m＝0，1，…，N/128)；

(3)第bid号线程块的threadID号线程中，判断t是否小于N，小于继续执行，否则该线程退出运行；

(4)变量i从1递增到j-1，如果R₁(i，j)≠0，执行以下计算：

1)计算变量β，计算公式为β＝2V_t(i：n，i)^T·A_t(i：n，j)；其中V_t(i：n，i)是Household变换矩阵V_t中第i列的第i～n行元素构成的向量；A_t(i：n，j)是矩阵A_t中第j列的第i～n行元素构成的向量；具体计算步骤如下：变量c从i递增到n计算：β+＝2V_t(c，i)×A_t(c，j)；

2)采用公式A_t(i：n，j)＝A_t(i：n，j)–β×V_t(i：n，i)，更新矩阵A_t的第j列，具体步骤如下：变量c从i递增到n计算：A_t(c，j)＝A_t(c，j)–β×V_t(c，i)；

(5)计算Household变换矩阵V_t的第j列：

首先，采用公式a²＝A_t(j：n，j)^T·A_t(j：n，j)计算中间变量a，具体计算步骤：变量c从j递增到n计算：a²+＝A_t(c，j)×A_t(c，j)；

接着，计算，V_t(j：n，j)＝A_t(j：n，j)–ae_j(j：n)，其中是e_j是第j个元素为1的单位向量，具体计算步骤：变量c从j递增到n计算：V_t(c，j)＝A_t(c，j)–ae_j(c)；

然后，采用公式b²＝V_t(j：n，j)^T·V_t(j：n，j)计算中间变量b，具体计算步骤：变量c从j递增到n计算：b²+＝V_t(c，j)×V_t(c，j)；

最后，计算，V_t(j：n，j)＝V_t(j：n，j)/b，具体计算步骤：变量c从j递增到n计算：V_t(c，j)＝V_t(c，j)/b；

(6)更新矩阵A_t的第j列：A_t(j，j)＝a，A_t(j+1：n，j)＝0‘’

(7)t＝t+128，返回(3)。

在CPU和GPU混合计算平台上分别对四个不同电网中的稀疏线性方程组集合的雅可比矩阵进行了批量QR分解，具体计算时间，如图2所示。算例4中，批处理数量N从1到变化到100时，计算时间只增加了30％(从383.5ms到500.1ms)，而当N＝400时的平均单个雅可比矩阵的计算时间仅为1.47ms，远快于KLU和UMPACK的计算速度。该算例的性能分析，如图3所示，全局内存请求由于QR求解设计中较好的合并访问模式仅仅随批处理数量增长而缓慢增长，当N从1变化到25时，全局内存请求仅仅增长了10％；当N变化到400时，全局内存请求也只增长了67％，计算时间也只相应增长了53％，设备内存带宽达到了49.6GB/s，相较与批处理数量N为1时发生了质变，批处理性能的获取即源自于内存带宽提升。而此时的内存带宽和计算带宽都只达到了峰值的20％，这也说明了K20C有足够的能力完成此规模下的批量潮流计算。

Claims

1.一种大量同构稀疏矩阵的GPU加速QR分解方法，其特征在于：所述方法包括如下步骤：

(2)CPU将QR分解所需数据传输给GPU；

(4)GPU中按层次递增的顺序计算分层QR分解内核函数Batch_QR。

2.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法，其特征在于：所述步骤(1)中，并行化分层将矩阵A₁的n列分配到M层中，属于同一层中的列可并行QR分解；每层包含的列的数量为L(k)，k表示层号；存储第k层中所有列号至映射表Map_k。

3.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法，其特征在于：所述步骤(2)中，所述的QR分解所需数据包括矩阵A₁～A_N、矩阵维度n、矩阵V₁和矩阵R₁的稀疏结构、矩阵A₁的并行化分层结果。

4.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法，其特征在于：所述步骤(3)中，将N个同构稀疏矩阵A₁～A_N的同一列的QR分解工作分配给同一个线程块的不同线程处理；为保证合并内存访问，将矩阵A₁～A_N在内存中连续存放组成一个逻辑上为N行的大矩阵，然后进行转置操作；将矩阵V₁～V_N在内存中连续存放组成一个逻辑上为N行的大矩阵，然后进行转置操作。

5.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法，其特征在于：所述步骤(4)中，GPU中的内核函数定义为Batch_QR<N_blocks，N_threads>，其中线程块大小N_threads固定为128；线程块数量N_blocks设计成变量，当对第k层进行计算时，线程块数量N_blocks＝L(k)，总线程数量为：N_blocks×N_threads；按照层次递增的顺序，启动内核函数Batch_QR<L(k)，N_threads>来分解属于第k层的所有列；Batch_QR<L(k)，N_threads>的具体计算流程为：

(4.4)变量i从1递增到j-1，如果R₁(i，j)≠0，执行以下计算：

(4.6)更新矩阵A_t的第j列：A_t(j，j)＝a，A_t(j+1：n，j)＝0；

(4.7)t＝t+128，返回(4.3)。