CN109992860A

CN109992860A - 基于gpu的电磁暂态并行仿真方法和系统

Info

Publication number: CN109992860A
Application number: CN201910216959.1A
Authority: CN
Inventors: 林芝茂; 韩民晓
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-09

Abstract

本发明提供了基于GPU的电磁暂态并行仿真方法和系统，包括获取电网线路参数、运行信息和故障信息；根据线路参数、运行信息和故障信息形成原始矩阵方程组；对矩阵方程组进行预处理和符号分解得到上三角矩阵；利用GPU多线程并行算法对上三角矩阵进行LU分解；利用前推回代算法对分解后的矩阵进行计算得到最终解。本发明通过基于GPU多核处理器的并行仿真技术，开发适合大规模电力系统电磁暂态并行仿真方法，可以进一步提高现有电网仿真软件的分析仿真能力，为国家电网的规划发展和安全稳定运行提供强有力的技术支撑。

Description

基于GPU的电磁暂态并行仿真方法和系统

技术领域

本发明涉及电力系统暂态技术领域，尤其是涉及基于GPU的电磁暂态并行仿真方法和系统。

背景技术

近年来，我国已经形成了全世界电压等级最高、规模最大的电力系统网络，并且正在从传统电网向智能电网方向发展。然而，现代电力系统由于大量高压直流、新能源、FACTS的接入，微秒级和毫秒级的电磁暂态过程、毫秒级和秒级的机电暂态过程以及分钟级以上的中长期动态过程之间的耦合程度越来越高，相互影响也越来越大。这就使得原来以准稳态模型为基础的机电暂态仿真，在某些特殊运行工况下不能再客观地反映真实情况。

综上所述，目前现有技术已难以准确反映电力系统暂态过程的真实情况，缺少能够有效进行全电磁暂态仿真分析的方法。

发明内容

有鉴于此，本发明的目的在于提供基于GPU的电磁暂态并行仿真方法和系统，通过基于GPU多核处理器的并行仿真技术，开发适合大规模电力系统电磁暂态并行仿真方法，可以进一步提高现有电网仿真软件的分析仿真能力，为国家电网的规划发展和安全稳定运行提供强有力的技术支撑。

第一方面，本发明实施例提供了基于GPU的电磁暂态并行仿真方法，包括：

获取电网线路参数、运行信息和故障信息；

根据所述线路参数、运行信息和故障信息形成原始矩阵方程组；

对所述矩阵方程组进行预处理和符号分解得到上三角矩阵；

利用GPU多线程并行算法对所述上三角矩阵进行LU分解；

利用前推回代算法对分解后的矩阵进行计算得到最终解。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对所述矩阵方程组进行预处理和符号分解得到上三角矩阵包括：

利用KLU软件包中的分块排序函数和符号分解函数，对所述矩阵方程组进行元素重新排序。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述对所述矩阵方程组进行元素重新排序包括：

通过深度优先算法形成节点关系图；

根据所述节点关系图中的节点间连接关系将所述矩阵方程组排列成块对角矩阵；

利用减小注入元算法对所述块对角矩阵中每个对角块矩阵进行重排序。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述GPU多线程并行算法为在普通Crout分解算法的基础上，通过重新配置1个内核函数形成由两个内核函数串联执行的算法。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述GPU多线程并行算法通过在GPU中使用多条执行流进行所述LU分解，多条执行流按照重叠并行规则进行并行运算。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述利用前推回代算法对分解后的矩阵进行计算得到最终解包括：

在CPU中，对所述对角块矩阵进行倒序计算得到所述原始矩阵方程组的解向量。

第二方面，本发明实施例提供了基于GPU的电磁暂态并行仿真系统，包括：

获取单元，用于获取电网线路参数、运行信息和故障信息；

第一计算单元，用于根据所述线路参数、运行信息和故障信息形成原始矩阵方程组；

第二计算单元，用于对所述矩阵方程组进行预处理和符号分解得到上三角矩阵；

第三计算单元，用于利用GPU多线程并行算法对所述上三角矩阵进行LU分解；

第四计算单元，用于利用前推回代算法对分解后的矩阵进行计算得到最终解。

本发明提供了基于GPU的电磁暂态并行仿真方法和系统，其特征在于，包括获取电网线路参数、运行信息和故障信息；根据线路参数、运行信息和故障信息形成原始矩阵方程组；对矩阵方程组进行预处理和符号分解得到上三角矩阵；利用GPU多线程并行算法对上三角矩阵进行LU分解；利用前推回代算法对分解后的矩阵进行计算得到最终解。本发明通过基于GPU多核处理器的并行仿真技术，开发适合大规模电力系统电磁暂态并行仿真方法，可以进一步提高现有电网仿真软件的分析仿真能力，为国家电网的规划发展和安全稳定运行提供强有力的技术支撑。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于GPU的电磁暂态并行仿真方法流程图；

图2为本发明实施例提供的上对角块矩阵方程组示意图；

图3为本发明实施例提供的优化Crout算法流程图；

图4为本发明实施例提供的并行流分解原理示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

综上所述，目前现有技术已难以准确反映电力系统暂态过程的真实情况，缺少能够有效进行全电磁暂态仿真分析的方法。基于此，本发明实施例提供的基于GPU的电磁暂态并行仿真方法和系统，通过基于GPU多核处理器的并行仿真技术，开发适合大规模电力系统电磁暂态并行仿真方法，可以进一步提高现有电网仿真软件的分析仿真能力，为国家电网的规划发展和安全稳定运行提供强有力的技术支撑。

传统的电磁暂态仿真大多采用CPU来实现，其计算效率也受到CPU体系结构的制约。一方面，计算机硬件的更新速度逐渐放缓，传统单核CPU的计算能力已接近极限，多核CPU所能集成的核数有限又导致并行计算开展困难。因而单纯依靠传统CPU架构的计算机来实现大规模电力系统全电磁暂态仿真分析显然不切实际。另一方面，图形处理器(GPU)迅速崛起，在高性能计算领域逐渐占据一席之地。GPU多核心高集成度的特点使得其在进行大数据并行计算有着得天独厚的优势。

为更好地理解本发明实施例的算法设计初衷，对CPU和GPU的结构差异总结如下：CPU每个核中缓存和控制单元所占的面积较大，计算单元面积则较小；而GPU则恰恰相反，每个核拥有的存储和控制单元较小，运算单元面积却远远大于CPU。这种结构上的差异导致CPU更适合处理强逻辑的运算，而GPU更适合多数据的运算。而电力系统节点数量众多，在暂态分析领域内使用GPU则更为适宜，这也是本发明实施例基于GPU的电磁暂态并行仿真方法的基础。

实施例一：

图1为本发明实施例提供的基于GPU的电磁暂态并行仿真方法流程图。

参照图1，基于GPU的电磁暂态并行仿真方法包括：

步骤S101，获取电网线路参数、运行信息和故障信息；

步骤S102，根据线路参数、运行信息和故障信息形成原始矩阵方程组；

步骤S103，对矩阵方程组进行预处理和符号分解得到上三角矩阵；

步骤S104，利用GPU多线程并行算法对上三角矩阵进行LU分解；

步骤S105，利用前推回代算法对分解后的矩阵进行计算得到最终解。

具体地，本发明实施例在详细研究了线性方程组直接求解法后，提出了一种基于GPU的电磁暂态线性方程组并行求解算法。首先，对GPU架构及其特点进行了详细研究。然后，结合线性方程组串行求解算法提出了并行Crout分解算法，分别从LU并行分解、多流并行和前代回代并行三个方面对电磁暂态线性方程组求解过程进行加速。

根据本发明的示例性实施例，步骤S103包括：

利用KLU软件包中的分块排序函数和符号分解函数，对矩阵方程组进行元素重新排序。

具体地，对矩阵方程组进行元素重新排序包括：通过深度优先算法形成节点关系图；根据节点关系图中的节点间连接关系将矩阵方程组排列成块对角矩阵；利用减小注入元算法对块对角矩阵中每个对角块矩阵进行重排序。

一般地，稀疏线性方程组求解主要包括四个过程：预处理、符号分解、数值分解和求解，预处理主要是对稀疏矩阵进行分块和节点重排序，稀疏矩阵的LU分解可能有大量注入元产生，不同的消元顺序对应的LU矩阵规模会相差数倍。因此，在求解稀疏线性方程组之前需要对其进行节点重排序，以寻找最利于消元的矩阵结构。符号分解是不进行具体元素数值的分解计算，其目的是在数值LU分解过程中根据这些记录，采用简单直接的寻址方式，使得数据查询量大大减少，计算速度明显提升。

为了提高开发效率，因而本实施例采用了应用最广泛的KLU软件包中的分块排序函数和符号分解函数进行矩阵的预处理及符号分解步骤。KLU是由Clark Kent开发的一种用于求解稀疏线性方程组的高性能软件包。其排序算法原理如下：首先，KLU通过深度优先算法形成节点关系图，根据节点间的连接关系将原矩阵排列成一个块对角矩阵，即对角线由一组块矩阵组成，对角块的左侧均为0元素，如图2所示；然后，KLU会应用减小注入元排序算法对于每个对角块矩阵进行重排序，保证其在后续分解过程中可以产生较小的注入元，从而加快计算速度。

KLU函数库的排序算法可以将原系数矩阵变换为一个上对角块矩阵，这样原本稀疏矩阵的元素就集中在了对角块上。这种方法使得后续的LU分解只需对对角块进行即可，大大降低了数值分解的计算量，并且并行分解也因此成为可能。

根据本发明的示例性实施例，GPU多线程并行算法为在普通Crout分解算法的基础上，通过重新配置1个内核函数形成由两个内核函数串联执行的算法。

具体地，常用的LU分解有四种算法，分别是Left-looking，Right-looking、Up-looking以及Crout算法。其中Crout算法由于其分解过程中元素之间的计算依赖性较小，更利于并发多线程计算。本发明实施例将重新配置了一个内核函数进行计算，将Crout串行算法改造成两个内核函数串联执行的多线程并行执行的算法，如图3所示。图中中Kernel 1函数并发的线程数是L_i列元素数目和U_i行元素数目之和，kernel 2函数并发的线程数是L_i列元素数目。由于kernel 2函数的计算过程需要在kernel 1函数的所有线程计算结束后才能进行，否则会出现计算错误。因而在kernel 1函数最后加入线程同步操作，确保所有线程均已计算结束。同样，kernel 2函数最后加入线程同步操作是为了保证后续计算时该行的分解计算已完全结束。

根据本发明的示例性实施例，GPU多线程并行算法通过在GPU中使用多条执行流进行LU分解，多条执行流按照重叠并行规则进行并行运算。

具体地，GPU在支持多线程并行的同时，也可以通过创建两个或多个不同的CUDA流水线进行多任务的并行。但GPU的多流并行与CPU不同，并不是完全意义上的并行，而是一种重叠并行的过程。单个流水线执行可以划分为三个过程：CPU向GPU传输数据、GPU执行、GPU向CPU传输数据。本发明实施例算法设计使用两条执行流来进行对角块矩阵的分解工作，具体方案如图4所示。从图4中可以看出，以四对角块矩阵为例，在主机端形成任务池并且开辟两条执行流。Stream 1串行计算A₁₁和A₂₂的分解过程，Stream 2串行计算A₃₃和A₄₄的分解过程，两个执行流按照重叠并行规则并行运算。

根据本发明的示例性实施例，步骤S105包括：

在CPU中，对对角块矩阵进行倒序计算得到原始矩阵方程组的解向量。

具体地，如上文所述，在LU分解之前，矩阵会通过排序方式排列为块对角矩阵，然后对对角块矩阵进行分解，而非对角块矩阵不进行分解。分解结束后需要进行前代回代运算才能求得最终解，然而这一部分运算由于前后关联度较大，无法通过多线程并行计算，因而在CPU中运算较为合适。虽然基础前代回代运算无法并行，但GPU可对其中的矩阵与相量间运算进行加速。仍以图4为例，当对角阵A₁₁、A₂₂、A₃₃和A₄₄均分解结束后，CPU需要首先计算A₄₄矩阵对应的解，然后矩阵A₁₄、A₂₄和A₃₄需要与解相量相乘从而更新右端项。

实施例二：

基于GPU的电磁暂态并行仿真系统包括：

获取单元，用于获取电网线路参数、运行信息和故障信息；

第一计算单元，用于根据线路参数、运行信息和故障信息形成原始矩阵方程组；

第二计算单元，用于对矩阵方程组进行预处理和符号分解得到上三角矩阵；

第三计算单元，用于利用GPU多线程并行算法对上三角矩阵进行LU分解；

本发明实施例提供的基于GPU的电磁暂态并行仿真系统，与上述实施例提供的基于GPU的电磁暂态并行仿真方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于GPU的电磁暂态并行仿真方法，其特征在于，包括：

获取电网线路参数、运行信息和故障信息；

对所述原始矩阵方程组进行预处理和符号分解得到上三角矩阵；

利用GPU多线程并行算法对所述上三角矩阵进行LU分解；

利用前推回代算法对分解后的矩阵进行计算得到最终解。

2.根据权利要求1所述的基于GPU的电磁暂态并行仿真方法，其特征在于，所述对所述原始矩阵方程组进行预处理和符号分解得到上三角矩阵包括：

3.根据权利要求2所述的基于GPU的电磁暂态并行仿真方法，其特征在于，所述对所述矩阵方程组进行元素重新排序包括：

通过深度优先算法形成节点关系图；

4.根据权利要求3所述的基于GPU的电磁暂态并行仿真方法，其特征在于，所述GPU多线程并行算法为在普通Crout分解算法的基础上，通过重新配置1个内核函数形成由两个内核函数串联执行的算法。

5.根据权利要求3所述的基于GPU的电磁暂态并行仿真方法，其特征在于，所述GPU多线程并行算法通过在GPU中使用多条执行流进行所述LU分解，多条执行流按照重叠并行规则进行并行运算。

6.根据权利要求3所述的基于GPU的电磁暂态并行仿真方法，其特征在于，所述利用前推回代算法对分解后的矩阵进行计算得到最终解包括：

7.一种基于GPU的电磁暂态并行仿真系统，其特征在于，包括：

获取单元，用于获取电网线路参数、运行信息和故障信息；

第二计算单元，用于对所述原始矩阵方程组进行预处理和符号分解得到上三角矩阵；