CN107392429A

CN107392429A - 一种gpu加速的电力潮流下三角方程组前推方法

Info

Publication number: CN107392429A
Application number: CN201710478882.6A
Authority: CN
Inventors: 周赣; 姚瑶; 孙立成; 张亮; 李琦; 何朝伟; 冯燕钧
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2017-11-24

Abstract

本发明公开了一种GPU加速的电力潮流下三角方程组前推方法，所述方法包括如下步骤：(1)CPU中根据雅可比矩阵的LU符号分解结果，即下三角变换矩阵L的稀疏结构，对下三角变换矩阵L各行进行并行化分层，并将计算所需数据传输至GPU；(2)GPU中按层次递增的顺序启动分层LU前推运算内核函数LUForward。本发明采用CPU和GPU结合的模式，由CPU控制整体流程并处理基础数据，GPU负责稀疏线性方程组的下三角变换矩阵分层前推运算，提高了电力潮流下三角方程组的LU前推运算效率，解决了电力系统运行分析中潮流计算耗时大的问题。

Description

一种GPU加速的电力潮流下三角方程组前推方法

技术领域

本发明属于电力系统高性能计算应用领域，尤其涉及一种GPU加速的电力潮流下三角方程组前推方法。

背景技术

潮流计算是电力系统中应用最广泛、最基本和最重要的一种电气运算。在电力系统运行方式和规划方案的研究中，都需要进行潮流计算以比较运行方式或规划供电方案的可行性、可靠性和经济性。同时，为了实时监控电力系统的运行状态，也需要进行大量而快速的潮流计算。因此，在系统规划设计和安排系统的运行方式时，采用离线潮流计算；在电力系统运行状态的实时监控中，则采用在线潮流计算。

而实际生产过程中，无论离线潮流和在线潮流计算都对潮流的计算速度有这比较高的要求。在涉及规划设计和安排运行方式的离线潮流中，因设备落地方案等情况复杂，需要仿真运行的种类多，潮流计算量大，单个潮流计算时间影响整体仿真时长；而在电力系统运行中进行的在线潮流计算对计算时间敏感度高，需要实时给出潮流计算结果，如在预想事故、设备退出运行对静态安全的影响的潮流计算中，系统需要计算大量预想事故下潮流分布，并实时地做出预想的运行方式调整方案。

GPU是一种众核并行处理器，在处理单元的数量上要远远超过CPU。传统的GPU只负责图形渲染，而大部分的处理都交给了CPU。现在的GPU已经发展为一种多核、多线程、具有强大计算能力和极高存储器带宽、可编程的处理器。在通用计算模型下，GPU作为CPU的协处理器工作，通过任务合理分配分解完成高性能计算。

稀疏线性方程组求解是电力系统潮流计算中一个重要部分，其中下三角方程组求解是线性方程组求解中最常见的操作，是LU分解法求解线性方程组的后续步骤，通常也被称为前推运算。对方程组系数矩阵进行LU符号分解后，得到下三角变换矩阵L的稀疏结构，对L矩阵各行进行并行化分层，其中每层中的行的计算相互独立，没有依赖关系，天然可以被并行的计算处理，适合GPU加速。通过CPU和GPU的有效合作可以完成稀疏线性方程组中下三角方程组的求解，目前国内外研究人员研究重点在于计算量分配的线程设计，而缺乏对线程计算方式和数据索引方式的深入研究，GPU的优势没有得到充分发挥。

因此，亟待解决上述问题。

发明内容

发明目的：本发明的目的是提供一种能大幅减少电力潮流下三角方程组前推运算的计算时间并能提升潮流计算速度的GPU加速的电力潮流下三角方程组前推方法。

潮流计算：电力学名词，指在给定电力系统网络拓扑、元件参数和发电、负荷参量条件下，计算有功功率、无功功率及电压在电力网中的分布。

GPU：图形处理器(英语：GraphicsProcessingUnit，缩写：GPU)。

技术方案：为实现以上目的，本发明公开了一种GPU加速的电力潮流下三角方程组前推方法，所述方法包括如下步骤：

(1)CPU中根据雅可比矩阵的LU符号分解结果，即下三角变换矩阵L的稀疏结构，对下三角变换矩阵L各行进行并行化分层，并将计算所需数据传输至GPU；

(2)GPU中按层次递增的顺序启动分层LU前推运算内核函数LUForward。

其中，所述步骤(1)中，并行化分层将下三角变换矩阵L的n行归并到MaxLevel层中，属于同一层中的行之间相互独立，可并行进行前推运算；每层包含的行的数量为Levelnum(k)，k表示层号；存储第k层中所有行号至映射表Map_k；最后CPU将GPU计算所需数据传输给GPU，GPU计算所需的数据包括：下三角变换矩阵L，矩阵维度n，线性方程组右端向量b，层数MaxLevel，每层包含的行数Levelnum以及映射表Map。

优选的，所述步骤(2)中，LU前推运算内核函数定义为LUForward<N_blocks，N_threads>，其线程块大小N_threads固定为128，当对k层进行计算时，线程块数量N_blocks＝(Levelnum(k)-1)/N_threads+1，调用内核函数LUForward<N_blocks，N_threads>来计算属于第k层的所有行。

再者，所述内核函数LUForward<N_blocks，N_threads>的计算流程为：

(2.1)CUDA自动为每个线程分配线程块索引blockID和线程块中的线程索引threadID；

(2.2)将blockID和threadID赋值给变量bid和t，联合变量bid和t来索引bid号线程块中的t号线程；

(2.3)第bid号线程块中的t号线程负责计算映射表Map_k中第bid*blockDim+t行，设行号为j，j＝Map_k[bid*blockDim+t]，其中，blockDim＝N_threads；

(2.4)第bid号线程块的t号线程中，变量i从1递增到j-1，当且仅当L(j，i)≠0时，采用公式y(j)＝b(j)-y(i)×L(j，i)来计算前推运算结果y的第j个元素y(j)；

(2.5)采用公式y(j)＝y(j)/L(j，j)更新y(j)。

有益效果：与现有技术相比，本发明具有以下显著优点：首先本发明根据电力潮流线性方程组的雅克比矩阵的LU符号分解结果，即L阵的稀疏格式，可以减少不必要的浮点计算；其次根据L阵的非零元结构将L矩阵的各行分到可同步并行计算的不同层次，并将分层结果传给GPU；最后GPU中按层次递增的顺序启动分层LU前推运算内核函数LUForward；采用CPU和GPU结合的模式，由CPU控制整体流程并处理基础数据，GPU负责稀疏线性方程组的下三角变换矩阵分层前推运算，提高了电力潮流线性方程组的LU前推运算效率，解决了电力系统运行分析中潮流计算耗时大的问题。

附图说明

图1为本发明的流程示意图；

图2为本发明所使用的算例；

图3为发明算例分层计算示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，本发明公开一种GPU加速的电力潮流下三角方程组前推方法，该方法分为以下几个步骤来具体实现：

步骤1：CPU中对稀疏矩阵L并行化分层，并传输计算数据

CPU中根据雅可比矩阵的LU符号分解结果，即下三角变换矩阵L的稀疏结构，对下三角变换矩阵L各行进行并行化分层，并行化分层将下三角变换矩阵L的n行归并到若干层中，每一层所包含的行之间相互独立，可以并行进行前推运算。接着CPU将GPU计算所需数据传输给GPU，具体包括：下三角变换矩阵L，矩阵维度n，线性方程组右端向量b，层数MaxLevel，每层包含的行数Levelnum以及映射表Map；

其中，并行化分层原理参见“Direct Methods for Sparse Linear Systems”Timothy A.Davis,SIAM,Philadelphia,2006，“针对不规则问题的并行算法设计与体系结构优化”，陈晓明。

步骤2：GPU中按层次递增顺序启动分层LU前推运算内核函数LUForward

分层LU前推运算内核函数定义为LUForward<N_blocks，N_threads>，其线程块大小N_threads固定为128，当对k层进行计算时，线程块数量N_blocks＝(Levelnum(k)-1)/N_threads+1，调用内核函数LUForward<N_blocks，N_threads>来计算属于第k层的所有行。

LUForward<N_blocks，N_threads>的计算流程为：

(2.3)第bid号线程块中的t号线程负责计算映射表Map_k中第bid*blockDim+t行，设行号为k，k＝Map_k[bid*blockDim+t]，其中，blockDim＝N_threads；

(2.5)采用公式y(j)＝y(j)/L(j，j)更新y(j)。

本发明以一个维度为8的线性方程组下三角矩阵L的前推运算为例，具体运算过程如图2所示。按照步骤1中所述，将下三角矩阵L的8行分到4层中，如图3所示，每层内所有行并行进行计算。在计算第7行时，利用与第7行有关且已得到的第2、3、4行运算结果完成计算任务。

Claims

1.一种GPU加速的电力潮流下三角方程组前推方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的GPU加速的电力潮流下三角方程组前推方法，其特征在于：所述步骤(1)中，并行化分层将下三角变换矩阵L的n行归并到MaxLevel层中，属于同一层中的行之间相互独立，可并行进行前推运算；每层包含的行的数量为Levelnum(k)，k表示层号；存储第k层中所有行号至映射表Map_k；最后CPU将GPU计算所需数据传输给GPU，GPU计算所需的数据包括：下三角变换矩阵L，矩阵维度n，线性方程组右端向量b，层数MaxLevel，每层包含的行数Levelnum以及映射表Map。

3.根据权利要求1所述的GPU加速的电力潮流下三角方程组前推方法，其特征在于：所述步骤(2)中，LU前推运算内核函数定义为LUForward<N_blocks，N_threads>，其线程块大小N_threads固定为128，当对k层进行计算时，线程块数量N_blocks＝(Levelnum(k)-1)/N_threads+1，调用内核函数LUForward<N_blocks，N_threads>来计算属于第k层的所有行。

4.根据权利要求3所述的GPU加速的电力潮流下三角方程组前推方法，其特征在于：所述内核函数LUForward<N_blocks，N_threads>的计算流程为：

(2.5)采用公式y(j)＝y(j)/L(j，j)更新y(j)。