CN106354479A - 一种大量同构稀疏矩阵的gpu加速qr分解方法 - Google Patents
一种大量同构稀疏矩阵的gpu加速qr分解方法 Download PDFInfo
- Publication number
- CN106354479A CN106354479A CN201610664905.8A CN201610664905A CN106354479A CN 106354479 A CN106354479 A CN 106354479A CN 201610664905 A CN201610664905 A CN 201610664905A CN 106354479 A CN106354479 A CN 106354479A
- Authority
- CN
- China
- Prior art keywords
- matrix
- row
- gpu
- sparse
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 34
- 230000001133 acceleration Effects 0.000 title abstract description 3
- 239000011159 matrix material Substances 0.000 claims abstract description 114
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000000151 deposition Methods 0.000 claims 2
- 238000003491 array Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005283 ground state Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005520 electrodynamics Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3877—Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大量同构稀疏矩阵的GPU加速QR分解方法,所述方法包括如下步骤:在CPU上对稀疏矩阵A1进行QR符号分解,得到Household变换矩阵V1和上三角矩阵R1的稀疏结构;对矩阵A1各列进行并行化分层,且A1~AN具有相同的稀疏结构V1、上三角矩阵稀疏结构R1和并行化分层结果;CPU将QR分解所需数据传输给GPU;任务分配和设备内存优化:将对矩阵A1~AN的QR分解任务分配到GPU上的大量线程中执行,并根据合并访问原则优化内存使用;GPU中计算分层QR分解内核函数Batch_QR。该方法利用CPU控制程序的流程,GPU处理密集浮点运算,可以大幅提高大量同构稀疏矩阵的QR分解速度。
Description
技术领域
本发明属于电力系统高性能计算应用领域,尤其涉及一种大量同构稀疏矩阵的GPU加速QR分解方法。
背景技术
潮流计算是电力系统中应用最广泛、最基本和最重要的一种电气运算。在电力系统运行方式和规划方案的研究中,都需要进行潮流计算以比较运行方式或规划供电方案的可行性、可靠性和经济性,在电力系统运行状态的实时监控中,需要采用在线潮流计算。传统的牛顿拉夫逊法潮流计算中,修正方程组求解时间占潮流计算时间的70%,修正方程组求解的计算速度影响程序的整体性能。
静态安全分析中的故障潮流是在基态电网上发生若干断线产生的,任何一个N-1断线故障都对应一个潮流,这些故障潮流的稀疏格式都是基态潮流稀疏格式的一个子集,其稀疏线性方程组具有统一的稀疏结构,求解计算具有并行性。对批量方程组系数矩阵的相同稀疏结构J矩阵进行QR符号分解后,得到Household变换矩阵V和上三角矩阵R矩阵的稀疏结构,根据R矩阵的稀疏结构,对矩阵J各列进行并行化分层。其中每层中的列的计算相互独立,没有依赖关系,天然可以被并行的计算处理,适合GPU加速。因此通过CPU和GPU之间合理的调度可以快速完成方程组系数矩阵进行QR分解,并求解稀疏线性方程组,国内外学者已经开始对GPU进行稀疏线性方程组加速求解的方法进行了研究,但是没有深入的优化线程设计,单纯从计算量的分配上研究计算线程设计,对线程计算方式,数据索引方式没有进行深入研究,无法使程序充分发挥GPU的优势。
因此,亟待解决上述问题。
发明内容
发明目的:针对现有技术的不足,本发明提供了一种适用于静态安全分析中批量潮流修正方程组的雅可比矩阵QR分解,可提高潮流计算速度,为在线分析提供基础的大量同构稀疏矩阵的GPU加速QR分解方法。
潮流计算:电力学名词,指在给定电力系统网络拓扑、元件参数和发电、负荷参量条件下,计算有功功率、无功功率及电压在电力网中的分布。
GPU:图形处理器(英语:Graphics Processing Unit,缩写:GPU)。
本发明公开了一种大量同构稀疏矩阵的GPU加速QR分解方法,所述方法包括如下步骤:
(1)稀疏结构相同的一系列n阶矩阵A1~AN构成大量同构稀疏矩阵,在CPU上对稀疏矩阵A1进行QR符号分解,得到Household变换矩阵V1和上三角矩阵R1的稀疏结构;根据R1矩阵的稀疏结构,对矩阵A1各列进行并行化分层,且A1~AN具有相同的Household变换矩阵稀疏结构V1、上三角矩阵稀疏结构R1和并行化分层结果;
(2)CPU将QR分解所需数据传输给GPU;
(3)任务分配和设备内存优化:将对矩阵A1~AN的QR分解任务分配到GPU上的大量线程中执行,并根据合并访问原则优化内存使用;
(4)GPU中按层次递增的顺序计算分层QR分解内核函数Batch_QR。
其中,所述步骤(1)中,并行化分层将矩阵A1的n列分配到M层中,属于同一层中的列可并行QR分解;每层包含的列的数量为L(k),k表示层号;存储第k层中所有列号至映射表Mapk。
优选的,所述步骤(2)中,所述的QR分解所需数据包括矩阵A1~AN、矩阵维度n、矩阵V1和矩阵R1的稀疏结构、矩阵A1的并行化分层结果。
再者,所述步骤(3)中,将N个同构稀疏矩阵A1~AN的同一列的QR分解工作分配给同一个线程块的不同线程处理;为保证合并内存访问,将矩阵A1~AN在内存中连续存放组成一个逻辑上为N行的大矩阵,然后进行转置操作;将矩阵V1~VN在内存中连续存放组成一个逻辑上为N行的大矩阵,然后进行转置操作。
进一步,所述步骤(4)中,GPU中的内核函数定义为Batch_QR<Nblocks,Nthreads>,其中线程块大小Nthreads固定为128;线程块数量Nblocks设计成变量,当对第k层进行计算时,线程块数量Nblocks=L(k),总线程数量为:Nblocks×Nthreads;按照层次递增的顺序,启动内核函数Batch_QR<L(k),Nthreads>来分解属于第k层的所有列;Batch_QR<L(k),Nthreads>的具体计算流程为:
(4.1)CUDA自动为每个线程分配线程块索引blockID和线程块中的线程索引threadID;
(4.2)将blockID赋值给变量bid,第blockID号线程块中的128个线程负责分解矩阵A1~AN的第j=Mapk(bid)列,其中:第threadID号线程负责计算矩阵At的第j列QR分解,t=threadID+m×128,(m=0,1,…,N/128);
(4.3)第bid号线程块的threadID号线程中,判断t是否小于N,小于继续执行,否则该线程退出运行;
(4.4)变量i从1递增到j-1,如果R1(i,j)≠0,执行以下计算:
1)计算变量β,计算公式为β=2Vt(i:n,i)T·At(i:n,j);其中Vt(i:n,i)是Household变换矩阵Vt中第i列的第i~n行元素构成的向量,At(i:n,j)是矩阵At中第j列的第i~n行元素构成的向量;具体计算步骤:变量c从i递增到n计算:β+=2Vt(c,i)×At(c,j);
2)采用公式At(i:n,j)=At(i:n,j)–β×Vt(i:n,i),更新矩阵At的第j列,具体计算步骤如下:变量c从i递增到n计算:At(c,j)=At(c,j)–β×Vt(c,i);
(4.5)计算Household变换矩阵Vt的第j列:首先,采用公式a2=At(j:n,j)T·At(j:n,j)计算中间变量a,具体计算步骤:变量c从j递增到n计算:a2+=At(c,j)×At(c,j);接着,计算,Vt(j:n,j)=At(j:n,j)–aej(j:n),其中是ej是第j个元素为1的单位向量,具体计算步骤:变量c从j递增到n计算:Vt(c,j)=At(c,j)–aej(c);然后,采用公式b2=Vt(j:n,j)T·Vt(j:n,j)计算中间变量b,具体计算步骤:变量c从j递增到n计算:b2+=Vt(c,j)×Vt(c,j);最后,计算,Vt(j:n,j)=Vt(j:n,j)/b,具体计算步骤:变量c从j递增到n计算:Vt(c,j)=Vt(c,j)/b;
(4.6)更新矩阵At的第j列:At(j,j)=a,At(j+1:n,j)=0;
(4.7)t=t+128,返回(4.3)。
有益效果:与现有技术比,本发明的有益效果为:首先,本发明利用CPU控制程序的流程并处理基础数据和GPU处理密集的浮点运算相结合的模式提高了大量同构稀疏矩阵的QR分解速度,解决了电力系统静态安全性分析中潮流计算耗时大的问题,且采用CPU对大量同构稀疏矩阵的相同稀疏格式A1进行QR符号分解,根据R1矩阵的稀疏格式,可以减少不必要的浮点计算;其次,在CPU中将矩阵A1进行并行化分层,并将结果传给GPU,减少GPU对逻辑操作的运算;再者,将批量矩阵的QR分解工作分配到大量的线程中执行,并根据GPU的访存模式优化设备内存使用,使GPU实现合并访存,内存操作速度提高了接近16倍;最后GPU中按层次递增的顺序启动内核函数Batch_QR,取得了单个稀疏矩阵QR分解的平均计算时间为1.67ms的效果。
附图说明:
图1为本发明内核函数任务分配示意图;
图2为本发明的实例测试结果;
图3为本发明的实例性能分析;
图4为本发明的流程示意图。
具体实施方式:
下面结合附图对本发明的技术方案作进一步说明。
如图4所示,本发明一种大量同构稀疏矩阵的GPU加速QR分解方法,所述方法包括如下步骤:
(1)大量同构稀疏矩阵指稀疏结构相同的一系列n阶矩阵A1~AN,在CPU上对其中稀疏矩阵A1进行QR符号分解,得到Household变换矩阵V1和上三角矩阵R1的稀疏结构,符号分解之后的A1矩阵的稀疏结构等于V1+R1;根据R1矩阵的稀疏结构,对矩阵A1各列进行并行化分层;因为A1~AN的稀疏结构相同,所以A1~AN具有相同的Household变换矩阵稀疏结构V1、上三角矩阵稀疏结构R1和并行化分层结果;
(2)CPU将QR分解所需数据传输给GPU;
(3)任务分配和设备内存优化:将对矩阵A1~AN的QR分解任务分配到GPU上的大量线程中执行,并根据合并访问原则优化内存使用;
(4)GPU中按层次递增的顺序启动分层QR分解内核函数Batch_QR。
一、CPU中对稀疏矩阵A1进行QR符号分解和并行化分层
大量同构的一系列n阶稀疏矩阵A1~AN具有相同的稀疏结构,在CPU上对其中稀疏矩阵A1进行QR符号分解,得到Household变换矩阵V1和上三角矩阵R1的稀疏结构,符号分解之后的A1矩阵的稀疏结构等于V1+R1;根据R1矩阵的稀疏结构,对矩阵A1各列进行并行化分层;因为A1~AN的稀疏结构相同,所以A1~AN具有相同的Household变换矩阵稀疏结构V1、上三角矩阵稀疏结构R1以及并行化分层结构。并行化分层将矩阵A1的n列分配到M层中,属于同一层中的列可并行QR分解;每层包含的列的数量为L(k),k表示层号;存储第k层中所有列号至映射表Mapk。
其中QR符号分解原理和并行化分层原理参见“Direct Methods for SparseLinear Systems”Timothy A.Davis,SIAM,Philadelphia,2006。本专利使用的QR符号分解和并行化分层程序参见CSparse:a Concise Sparse Matrix package.VERSION 3.1.4,Copyright(c)2006-2014,Timothy A.Davis,Oct 10,2014。
二、CPU将QR分解所需数据传输给GPU
CPU读取电网基础数据,并将矩阵A1的分层结果和电网基础数据在内核函数开始执行之前一次性传输给GPU,减少CPU与GPU之间的数据交互。所需数据包括:矩阵A1~AN、矩阵维度n、矩阵V1和R1的稀疏结构、分层数量M层,每层包含的列的数量为L(k),映射表Mapk。
三、任务分配和设备内存优化
将N个同构稀疏矩阵A1~AN的同一列的QR分解工作分配给同一个线程块的不同线程处理,具体的任务分配模式,如图1所示;为保证合并内存访问,将矩阵A1~AN在内存中连续存放组成一个逻辑上为N行的大矩阵,然后进行转置操作;将矩阵V1~VN在内存中连续存放组成一个逻辑上为N行的大矩阵,然后进行转置操作。
四、GPU中按层次递增的顺序启动分层QR批处理分解内核函数
GPU中的内核函数定义为Batch_QR<Nblocks,Nthreads>,其中线程块大小Nthreads固定为128;线程块数量Nblocks设计成变量,当对第k层进行计算时,线程块数量Nblocks=L(k),总线程数量为:Nblocks×Nthreads;按照层次递增的顺序,调用内核函数Batch_QR<Ln(k),Nthreads>来分解属于第k层的所有列。
Batch_QR<Ln(k),Nthreads>的计算流程为:
(1)CUDA自动为每个线程分配线程块索引blockID和线程块中的线程索引threadID;
(2)将blockID赋值给变量bid,第blockID号线程块中的128个线程负责分解矩阵A1~AN的第j=Mapk(bid)列,其中:第threadID号线程负责计算矩阵At的第j列QR分解,t=threadID+m×128,(m=0,1,…,N/128);
(3)第bid号线程块的threadID号线程中,判断t是否小于N,小于继续执行,否则该线程退出运行;
(4)变量i从1递增到j-1,如果R1(i,j)≠0,执行以下计算:
1)计算变量β,计算公式为β=2Vt(i:n,i)T·At(i:n,j);其中Vt(i:n,i)是Household变换矩阵Vt中第i列的第i~n行元素构成的向量;At(i:n,j)是矩阵At中第j列的第i~n行元素构成的向量;具体计算步骤如下:变量c从i递增到n计算:β+=2Vt(c,i)×At(c,j);
2)采用公式At(i:n,j)=At(i:n,j)–β×Vt(i:n,i),更新矩阵At的第j列,具体步骤如下:变量c从i递增到n计算:At(c,j)=At(c,j)–β×Vt(c,i);
(5)计算Household变换矩阵Vt的第j列:
首先,采用公式a2=At(j:n,j)T·At(j:n,j)计算中间变量a,具体计算步骤:变量c从j递增到n计算:a2+=At(c,j)×At(c,j);
接着,计算,Vt(j:n,j)=At(j:n,j)–aej(j:n),其中是ej是第j个元素为1的单位向量,具体计算步骤:变量c从j递增到n计算:Vt(c,j)=At(c,j)–aej(c);
然后,采用公式b2=Vt(j:n,j)T·Vt(j:n,j)计算中间变量b,具体计算步骤:变量c从j递增到n计算:b2+=Vt(c,j)×Vt(c,j);
最后,计算,Vt(j:n,j)=Vt(j:n,j)/b,具体计算步骤:变量c从j递增到n计算:Vt(c,j)=Vt(c,j)/b;
(6)更新矩阵At的第j列:At(j,j)=a,At(j+1:n,j)=0‘’
(7)t=t+128,返回(3)。
在CPU和GPU混合计算平台上分别对四个不同电网中的稀疏线性方程组集合的雅可比矩阵进行了批量QR分解,具体计算时间,如图2所示。算例4中,批处理数量N从1到变化到100时,计算时间只增加了30%(从383.5ms到500.1ms),而当N=400时的平均单个雅可比矩阵的计算时间仅为1.47ms,远快于KLU和UMPACK的计算速度。该算例的性能分析,如图3所示,全局内存请求由于QR求解设计中较好的合并访问模式仅仅随批处理数量增长而缓慢增长,当N从1变化到25时,全局内存请求仅仅增长了10%;当N变化到400时,全局内存请求也只增长了67%,计算时间也只相应增长了53%,设备内存带宽达到了49.6GB/s,相较与批处理数量N为1时发生了质变,批处理性能的获取即源自于内存带宽提升。而此时的内存带宽和计算带宽都只达到了峰值的20%,这也说明了K20C有足够的能力完成此规模下的批量潮流计算。
Claims (5)
1.一种大量同构稀疏矩阵的GPU加速QR分解方法,其特征在于:所述方法包括如下步骤:
(1)稀疏结构相同的一系列n阶矩阵A1~AN构成大量同构稀疏矩阵,在CPU上对稀疏矩阵A1进行QR符号分解,得到Household变换矩阵V1和上三角矩阵R1的稀疏结构;根据R1矩阵的稀疏结构,对矩阵A1各列进行并行化分层,且A1~AN具有相同的Household变换矩阵稀疏结构V1、上三角矩阵稀疏结构R1和并行化分层结果;
(2)CPU将QR分解所需数据传输给GPU;
(3)任务分配和设备内存优化:将对矩阵A1~AN的QR分解任务分配到GPU上的大量线程中执行,并根据合并访问原则优化内存使用;
(4)GPU中按层次递增的顺序计算分层QR分解内核函数Batch_QR。
2.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法,其特征在于:所述步骤(1)中,并行化分层将矩阵A1的n列分配到M层中,属于同一层中的列可并行QR分解;每层包含的列的数量为L(k),k表示层号;存储第k层中所有列号至映射表Mapk。
3.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法,其特征在于:所述步骤(2)中,所述的QR分解所需数据包括矩阵A1~AN、矩阵维度n、矩阵V1和矩阵R1的稀疏结构、矩阵A1的并行化分层结果。
4.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法,其特征在于:所述步骤(3)中,将N个同构稀疏矩阵A1~AN的同一列的QR分解工作分配给同一个线程块的不同线程处理;为保证合并内存访问,将矩阵A1~AN在内存中连续存放组成一个逻辑上为N行的大矩阵,然后进行转置操作;将矩阵V1~VN在内存中连续存放组成一个逻辑上为N行的大矩阵,然后进行转置操作。
5.根据权利要求1所述的一种大量同构稀疏矩阵的GPU加速QR分解方法,其特征在于:所述步骤(4)中,GPU中的内核函数定义为Batch_QR<Nblocks,Nthreads>,其中线程块大小Nthreads固定为128;线程块数量Nblocks设计成变量,当对第k层进行计算时,线程块数量Nblocks=L(k),总线程数量为:Nblocks×Nthreads;按照层次递增的顺序,启动内核函数Batch_QR<L(k),Nthreads>来分解属于第k层的所有列;Batch_QR<L(k),Nthreads>的具体计算流程为:
(4.1)CUDA自动为每个线程分配线程块索引blockID和线程块中的线程索引threadID;
(4.2)将blockID赋值给变量bid,第blockID号线程块中的128个线程负责分解矩阵A1~AN的第j=Mapk(bid)列,其中:第threadID号线程负责计算矩阵At的第j列QR分解,t=threadID+m×128,(m=0,1,…,N/128);
(4.3)第bid号线程块的threadID号线程中,判断t是否小于N,小于继续执行,否则该线程退出运行;
(4.4)变量i从1递增到j-1,如果R1(i,j)≠0,执行以下计算:
1)计算变量β,计算公式为β=2Vt(i:n,i)T·At(i:n,j);其中Vt(i:n,i)是Household变换矩阵Vt中第i列的第i~n行元素构成的向量,At(i:n,j)是矩阵At中第j列的第i~n行元素构成的向量;具体计算步骤:变量c从i递增到n计算:β+=2Vt(c,i)×At(c,j);
2)采用公式At(i:n,j)=At(i:n,j)–β×Vt(i:n,i),更新矩阵At的第j列,具体计算步骤如下:变量c从i递增到n计算:At(c,j)=At(c,j)–β×Vt(c,i);
(4.5)计算Household变换矩阵Vt的第j列:首先,采用公式a2=At(j:n,j)T·At(j:n,j)计算中间变量a,具体计算步骤:变量c从j递增到n计算:a2+=At(c,j)×At(c,j);接着,计算,Vt(j:n,j)=At(j:n,j)–aej(j:n),其中是ej是第j个元素为1的单位向量,具体计算步骤:变量c从j递增到n计算:Vt(c,j)=At(c,j)–aej(c);然后,采用公式b2=Vt(j:n,j)T·Vt(j:n,j)计算中间变量b,具体计算步骤:变量c从j递增到n计算:b2+=Vt(c,j)×Vt(c,j);最后,计算,Vt(j:n,j)=Vt(j:n,j)/b,具体计算步骤:变量c从j递增到n计算:Vt(c,j)=Vt(c,j)/b;
(4.6)更新矩阵At的第j列:At(j,j)=a,At(j+1:n,j)=0;
(4.7)t=t+128,返回(4.3)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610664905.8A CN106354479B (zh) | 2016-08-12 | 2016-08-12 | 一种大量同构稀疏矩阵的gpu加速qr分解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610664905.8A CN106354479B (zh) | 2016-08-12 | 2016-08-12 | 一种大量同构稀疏矩阵的gpu加速qr分解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106354479A true CN106354479A (zh) | 2017-01-25 |
CN106354479B CN106354479B (zh) | 2019-01-29 |
Family
ID=57843949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610664905.8A Active CN106354479B (zh) | 2016-08-12 | 2016-08-12 | 一种大量同构稀疏矩阵的gpu加速qr分解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354479B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368368A (zh) * | 2017-06-22 | 2017-11-21 | 东南大学 | 一种大量同构稀疏上三角方程组的gpu加速回代方法 |
CN107368454A (zh) * | 2017-06-22 | 2017-11-21 | 东南大学 | 一种大量同构稀疏下三角方程组的gpu加速前推方法 |
CN110718919A (zh) * | 2019-09-25 | 2020-01-21 | 北京交通大学 | 基于gpu加速的大电网静态安全分析故障筛选的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090154586A1 (en) * | 2007-12-17 | 2009-06-18 | Electronics And Telecommunications Research Institute | Mimo receiver, qr decomposition and multi-dimensional detection used in the mimo receiver |
US8543633B2 (en) * | 2010-09-24 | 2013-09-24 | Lockheed Martin Corporation | Modified Gram-Schmidt core implemented in a single field programmable gate array architecture |
US20140050315A1 (en) * | 2012-02-06 | 2014-02-20 | Xw, Llc D/B/A Xtendwave | High-speed in-memory qr decomposition using fast plane rotations |
CN103617150A (zh) * | 2013-11-19 | 2014-03-05 | 国家电网公司 | 一种基于gpu的大规模电力系统潮流并行计算系统及其方法 |
CN104484234A (zh) * | 2014-11-21 | 2015-04-01 | 中国电力科学研究院 | 一种基于gpu的多波前潮流计算方法和系统 |
CN105576648A (zh) * | 2015-11-23 | 2016-05-11 | 中国电力科学研究院 | 一种基于gpu-cpu异构计算平台的静态安全分析双层并行方法 |
-
2016
- 2016-08-12 CN CN201610664905.8A patent/CN106354479B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090154586A1 (en) * | 2007-12-17 | 2009-06-18 | Electronics And Telecommunications Research Institute | Mimo receiver, qr decomposition and multi-dimensional detection used in the mimo receiver |
US8543633B2 (en) * | 2010-09-24 | 2013-09-24 | Lockheed Martin Corporation | Modified Gram-Schmidt core implemented in a single field programmable gate array architecture |
US20140050315A1 (en) * | 2012-02-06 | 2014-02-20 | Xw, Llc D/B/A Xtendwave | High-speed in-memory qr decomposition using fast plane rotations |
CN103617150A (zh) * | 2013-11-19 | 2014-03-05 | 国家电网公司 | 一种基于gpu的大规模电力系统潮流并行计算系统及其方法 |
CN104484234A (zh) * | 2014-11-21 | 2015-04-01 | 中国电力科学研究院 | 一种基于gpu的多波前潮流计算方法和系统 |
CN105576648A (zh) * | 2015-11-23 | 2016-05-11 | 中国电力科学研究院 | 一种基于gpu-cpu异构计算平台的静态安全分析双层并行方法 |
Non-Patent Citations (2)
Title |
---|
CHEN等: "Adaptive block size for dense QR factorization in hybrid CPU–GPU systems via statistical modeling", 《PARALLEL COMPUTING》 * |
穆帅等: "基于GPU的多层次并行QR分解算法研究", 《计算机仿真》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368368A (zh) * | 2017-06-22 | 2017-11-21 | 东南大学 | 一种大量同构稀疏上三角方程组的gpu加速回代方法 |
CN107368454A (zh) * | 2017-06-22 | 2017-11-21 | 东南大学 | 一种大量同构稀疏下三角方程组的gpu加速前推方法 |
CN110718919A (zh) * | 2019-09-25 | 2020-01-21 | 北京交通大学 | 基于gpu加速的大电网静态安全分析故障筛选的方法 |
CN110718919B (zh) * | 2019-09-25 | 2021-06-01 | 北京交通大学 | 基于gpu加速的大电网静态安全分析故障筛选的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106354479B (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407158B (zh) | 一种gpu加速的批处理同构稀疏矩阵乘满向量的处理方法 | |
CN106874113A (zh) | 一种cpu+多gpu异构模式静态安全分析计算方法 | |
CN105576648B (zh) | 一种基于gpu-cpu异构计算平台的静态安全分析双层并行方法 | |
CN106157176B (zh) | 一种gpu加速的电力潮流雅可比矩阵的lu分解方法 | |
CN103617150A (zh) | 一种基于gpu的大规模电力系统潮流并行计算系统及其方法 | |
CN103607466B (zh) | 一种基于云计算的广域多级分布式并行电网分析方法 | |
He et al. | Probability density forecasting of wind power based on multi-core parallel quantile regression neural network | |
CN102539822B (zh) | 一种短期风速预测方法 | |
CN106354479A (zh) | 一种大量同构稀疏矩阵的gpu加速qr分解方法 | |
CN106026107B (zh) | 一种gpu加速的电力潮流雅可比矩阵的qr分解方法 | |
CN105391057A (zh) | 一种电力潮流雅克比阵计算的gpu线程设计方法 | |
Sun et al. | Research and application of parallel normal cloud mutation shuffled frog leaping algorithm in cascade reservoirs optimal operation | |
CN112948123B (zh) | 一种基于Spark的网格水文模型分布式计算方法 | |
CN107171365A (zh) | 基于场景解耦和异步迭代的多目标随机动态经济调度方法 | |
CN104102954B (zh) | 考虑黑启动功能的分布式综合供能系统的优化配置方法 | |
Biserica et al. | Network partition for coordinated control in active distribution networks | |
CN107368454A (zh) | 一种大量同构稀疏下三角方程组的gpu加速前推方法 | |
CN101958580B (zh) | 大型电网实时在线趋势潮流的分区计算方法 | |
CN113704695B (zh) | 一种适用于区域数值模式集合模拟预报的初值小扰动法 | |
CN106021943B (zh) | 一种结合gpu软硬件架构特点设计的直流故障筛选方法 | |
CN107579516A (zh) | 一种提高电力系统状态估计计算速度的方法 | |
CN107368368A (zh) | 一种大量同构稀疏上三角方程组的gpu加速回代方法 | |
Liu et al. | Distributed reactive power optimization computing in multi-area power systems using ward equivalent | |
CN107276093A (zh) | 基于场景削减的电力系统概率潮流计算方法 | |
CN105896547A (zh) | 一种风电接入下的大电网分级电压控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210009 No. 87 Dingjiaqiao, Gulou District, Nanjing City, Jiangsu Province Applicant after: Southeast University Address before: No. 2, four archway in Xuanwu District, Nanjing, Jiangsu Applicant before: Southeast University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |