CN115658323A

CN115658323A - 基于软硬件协同的fpga潮流计算加速架构和方法

Info

Publication number: CN115658323A
Application number: CN202211431448.XA
Authority: CN
Inventors: 张小雪; 魏心泉; 孙雯雯
Original assignee: China Online Shanghai Energy Internet Research Institute Co ltd
Current assignee: China Online Shanghai Energy Internet Research Institute Co ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-01-31

Abstract

本发明涉及一种基于软硬件协同的FPGA潮流计算加速架构和方法，其中，架构包括宿主服务器和FPGA芯片，所述宿主服务器通过调度模块与所述FPGA芯片相连，所述宿主服务器用于建立潮流迭代计算所需的稀疏矩阵；所述FPGA芯片利用并行运算特性用于对所述稀疏矩阵的计算进行加速；所述调度模块根据所述FPGA芯片的硬件资源将所述宿主服务器建立的稀疏矩阵的数据分发至所述FPGA芯片，并将所述FPGA芯片的计算结果传输给所述宿主服务器。本发明能够实现高性能潮流计算稀疏矩阵加速求解。

Description

基于软硬件协同的FPGA潮流计算加速架构和方法

技术领域

本发明涉及电力系统潮流计算加速技术领域，特别是涉及一种基于软硬件协同的FPGA潮流计算加速架构和方法。

背景技术

近年来，随着新一轮信息技术的发展，传统电力系统转型的数字化、智能化特征进一步凸显，数字化将是适应能源革命和数字革命协同发展的必然趋势。电网数字化转型中重要的研究热点之一是如何高效计算电网中的潮流分布，潮流计算是电网规划运行、优化及可靠性分析的重要手段，潮流计算的准确性是保证电力系统安全、稳定以及可靠运行的基础。同时，由于我国电力网络规模大、结构复杂，如何快速、准确的计算大规模电网潮流分布对提高电力系统安全稳定运行起着至关重要的作用。

现有专利文献CN111740424A提出了一种基于运算树GPU并行加速模型的电力系统潮流计算方法。该方法利用运算树GPU并行加速模型来加速电力系统潮流计算中的雅克比矩阵和量测修正量的生成，在系统规模较大时提升计算效率。该方法的计算过程包含六个步骤，在形成运算树时，针对所有雅可比矩阵和量测修正量的非零元素运算式的后缀表达式生成运算树，而后根据这些运算树形成运算森林，并开始进行并行线程计算，每一个GPU线程负责处理每一对兄弟节点，通过获取兄弟节点的数值以及其父节点的运算符进行数值计算，并将计算结果写入父节点中。虽然该方法利用GPU的并行运算特点，实现了系统数据量较大时对运算效率的提升，但仍在实时性方面存在不足。

发明内容

本发明所要解决的技术问题是提供一种基于软硬件协同的FPGA潮流计算加速架构和方法，能够实现高性能潮流计算稀疏矩阵加速求解，将潮流计算的性能提高几个数量级以上。

本发明解决其技术问题所采用的技术方案是：提供一种基于软硬件协同的FPGA潮流计算加速架构，包括宿主服务器和FPGA芯片，所述宿主服务器通过调度模块与所述FPGA芯片相连，所述宿主服务器用于建立潮流迭代计算所需的稀疏矩阵；所述FPGA芯片利用并行运算特性用于对所述稀疏矩阵的计算进行加速；所述调度模块根据所述FPGA芯片的硬件资源将所述宿主服务器建立的稀疏矩阵的数据分发至所述FPGA芯片，并将所述FPGA芯片的计算结果传输给所述宿主服务器。

所述宿主服务器包括：接收单元，用于接收电网数据文件；解析单元，用于对所述电网数据文件进行解析，得到潮流计算所需的参数；构建单元，用于根据所述参数建立非线性潮流方程组，并采用稀疏矩阵压缩技术建立潮流迭代计算所需的稀疏矩阵。

所述FPGA芯片包括：第一计算单元，用于计算节点注入功率；第二计算单元，用于进行雅克比矩阵计算。

所述FPGA芯片包括：第一存储单元，用于存储所述稀疏矩阵的数据；第二存储单元，用于存储所述第一计算单元和第二计算单元的计算结果。

所述宿主服务器还包括：更新单元，用于基于所述第一计算单元或第二计算单元的计算结果更新所述稀疏矩阵的数据和状态。

所述宿主服务器还包括：第一判断单元，用于判断所述潮流迭代计算是否完成；第二判断单元，用于在所述潮流迭代计算完成时判断计算结果是否收敛；输出单元，用于输出潮流迭代计算结果。

所述调度模块通过OpenCL编写的硬件资源调用功能将所述宿主服务器建立的稀疏矩阵的数据分发至所述FPGA芯片。

本发明解决其技术问题所采用的技术方案是：提供一种采用上述基于软硬件协同的FPGA潮流计算加速架构的加速方法，包括以下步骤：

控制宿主服务器建立潮流迭代计算所需的稀疏矩阵；

根据FPGA芯片的硬件资源将所述稀疏矩阵的数据分发至所述FPGA芯片，由所述FPGA芯片利用并行运算特性执行对所述稀疏矩阵的加速计算；

控制所述宿主服务器从所述FPGA芯片读取计算结果。

所述根据FPGA芯片的硬件资源将所述稀疏矩阵的数据分发至所述FPGA芯片时通过OpenCL编写的硬件资源调用功能实现。

所述FPGA芯片利用并行运算特性执行对所述稀疏矩阵的加速计算包括节点注入功率的计算和雅克比矩阵计算。

本发明解决其技术问题所采用的技术方案是：提供一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述加速方法的步骤。

本发明解决其技术问题所采用的技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述加速方法的步骤。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明基于FPGA硬件加速技术，利用FPGA的并行流水线架构对潮流计算算法进行硬件加速，能在电网规模较大的情况下提供实时性更高的计算效果。且FPGA作为一款安全性高、可重构、低功耗的芯片，可以较好适应各类电力系统算法应用的需求，可基于各电网的特点灵活更新算法功能。

附图说明

图1是本发明第一实施方式的基于软硬件协同的FPGA潮流计算加速架构的示意图；

图2是本发明第一实施方式中宿主服务器和FPGA芯片的数据交互示意图；

图3是本发明第二实施方式的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的第一实施方式涉及一种基于软硬件协同的FPGA潮流计算加速架构，如图1所示，包括宿主服务器和FPGA芯片，所述宿主服务器通过调度模块与所述FPGA芯片相连。所述宿主服务器用于建立潮流迭代计算所需的稀疏矩阵；所述FPGA芯片利用并行运算特性用于对所述稀疏矩阵的计算进行加速；所述调度模块根据所述FPGA芯片的硬件资源将所述宿主服务器建立的稀疏矩阵的数据分发至所述FPGA芯片，并将所述FPGA芯片的计算结果传输给所述宿主服务器。

本实施方式为了减少资源消耗，可以采用稀疏矩阵压缩技术在宿主服务器端通过应用程序建立潮流计算方程。通过宿主服务器与FPGA芯片之间的调度模块实现宿主服务器与FPGA芯片之间的任务分配与资源调用的优化。同时，该调度模块可以通过OpenCL语言定制内核程序，并将其加载到FPGA芯片中，通过分配FPGA芯片的硬件资源实现多组数据并行计算，提升潮流计算中矩阵迭代运算的效率。宿主服务器端的应用程序负责数据资源的协调与调度，从而实现基于FPGA的潮流计算高性能软硬件协同加速。

本实施方式中的宿主服务器包括：接收单元，用于接收电网数据文件；解析单元，用于对所述电网数据文件进行解析，得到潮流计算所需的参数，例如网络结构参数、有功功率和无功功率等；构建单元，用于根据所述参数建立非线性潮流方程组，并采用稀疏矩阵压缩技术建立潮流迭代计算所需的稀疏矩阵。本实施方式中的FPGA芯片包括：第一计算单元，用于计算节点注入功率；第二计算单元，用于进行雅克比矩阵计算。

如图2所示，宿主服务器和FPGA芯片在进行数据交互时可以通过PCIe端口进行连接。在FPGA芯片端还包括：第一存储单元，用于存储所述稀疏矩阵的数据；第二存储单元，用于存储所述第一计算单元和第二计算单元的计算结果。其中，第一存储单元包括电压缓冲区、相角缓冲区、导纳矩阵缓冲区、行指针缓冲区和列指针缓冲区，电压缓冲区用于存储节点电压，相角缓冲区用于存储相角，导纳矩阵缓冲区用于存储导纳矩阵，行指针缓冲区用于存储行指针，列指针缓冲区用于存储列指针。第二存储单元包括P矩阵缓冲区和Q矩阵缓冲区，其用于存储节点注入功率的计算结果。

本实施方式中的宿主服务器还包括：更新单元，用于基于所述第一计算单元或第二计算单元的计算结果更新所述稀疏矩阵的数据和状态。在更新后调度模块可以将更新后的稀疏矩阵的数据分配至所述FPGA芯片，以使FPGA芯片能够进行后续计算。

本实施方式中的宿主服务器还包括：第一判断单元，用于判断所述潮流迭代计算是否完成；第二判断单元，用于在所述潮流迭代计算完成时判断计算结果是否收敛；输出单元，用于输出潮流迭代计算结果。需要说明的是，宿主服务器在建立稀疏矩阵前，需要判断潮流迭代计算是否完成，如果没有完成，则根据所述潮流计算所需的参数建立非线性潮流方程组，并采用稀疏矩阵压缩技术建立潮流迭代计算所需的稀疏矩阵，如果已经完成，则通过第二判断单元，判断计算结果是否收敛，并通过输出单元将潮流迭代计算结果输出。

由此可见，本实施方式中宿主服务器负责处理输入的电网数据文件，并提取潮流计算所需的参数，建立非线性潮流方程组，采用稀疏矩阵压缩技术建立迭代计算所需的稀疏矩阵。然后调用模块通过服务器—FPGA两级架构实现计算任务的调度与下发，利用OpenCL及FPGA加速卡的芯片支持工具实现对芯片资源的控制，包括输入/输出数据的读取写入与片上资源的分配。将涉及到大量稀疏矩阵运算的任务分配给FPGA进行处理，如节点注入功率计算及雅克比矩阵计算，而逻辑判断与简单计算直接在服务器系统上运行，如节点不平衡有功/无功功率的计算等。本实施方式设计了服务器-FPGA芯片软硬件协同计算的两层架构，能够在电网环境较为复杂、计算量较大的环境下，降低潮流算法运行时系统资源的消耗，提升整个算法的执行速度，为电网分析系统提供实时性更高的解决方案。

将本实施方式的基于软硬件协同的FPGA潮流计算加速架构与现有技术中的基于运算树GPU的潮流计算并行加速架构进行比较可知，本实施方式具有以下优点：

（1）GPU的架构较为固定，在使用过程中不便随时灵活地调整硬件资源，而本实施方式的FPGA芯片由于其电路可重复编程的特性，可以根据算法需求灵活调整硬件资源的分配。在建设新型电力系统时，FPGA芯片更适合针对不同的电网规模配置灵活调整算法的各功能模块，最大最合理化的调用资源进行并行计算，使加速效果达到最优。

（2）GPU的功耗远大于FPGA的功耗，因为GPU属于冯·诺依曼结构，指令译码执行、共享内存，且需要有指令存储器、译码器等单元的支持。因此GPU需要用单指令流多数据流(SIMD)来让多个执行单元以同样的步调处理不同的数据。而FPGA本质上属于无指令、无需共享内存的体系结构。FPGA上每个逻辑单元的功能及数据类型在重编程时已经确定，故不需要指令。

（3）FPGA相较于GPU来说延迟更低，FPGA同时拥有流水线并行和数据并行，而GPU因流水线深度受限，几乎只具有数据并行。GPU需要共享内存来执行单元之间的通信，则每次访问内存时需要消耗时间。而FPGA的逻辑单元之间的连接在定制化过程中已经确定，执行运算期间无需额外的通信和缓存时间。例如FPGA在并行计算时可以搭建一个多层级流水线，流水线的不同级处理不同的输入数据集，每处理完一个数据集即可马上输出。而GPU的数据并行方法是使用多个计算单元，这多个计算单元必须达到统一的步调，多组数据集需要一同输入且一同输出，为了达到同步性则需要一定的时间成本。

（4）FPGA可以处理任意精度的数据，但GPU的数据处理受限于开发平台。

如表1所示，FPGA在延迟、功耗方面的功效远优于GPU：

表1 GPU与FPGA的延迟及功耗对比

本发明的第二实施方式涉及一种基于软硬件协同的FPGA潮流计算加速方法，该方法基于第一实施方式的基于软硬件协同的FPGA潮流计算加速架构，如图3所示，包括：控制宿主服务器建立潮流迭代计算所需的稀疏矩阵；根据FPGA芯片的硬件资源将所述稀疏矩阵的数据分发至所述FPGA芯片，由所述FPGA芯片利用并行运算特性执行对所述稀疏矩阵的加速计算；控制所述宿主服务器从所述FPGA芯片读取计算结果。具体地说，其包括如下步骤：

步骤1，定制FPGA加速卡硬件内核程序：根据矩阵运算模块定制化加速硬件的内核程序，并将该程序编译到硬件，如无需对潮流算法的计算模块进行版本更新，则此步骤只需执行一次；

步骤2，电网数据文件导入、解析及矩阵预存储：对输入的电网数据文件进行逐句解析，提取包括节点类型、节点电压、有功/无功功率等在内的电网数据，并存储到对应的矩阵中；

步骤3，宿主服务器的主机程序驱动FPGA硬件：对FPGA加速卡进行初始化，并加载已定制好的稀疏矩阵运算内核模块；

步骤4，矩阵数据写入对应缓冲区，FPGA执行节点注入功率运算模块：主机程序通过OpenCL编写的硬件资源调用功能，将各矩阵数据下发给FPGA来执行加速运算，并将计算结果写入可读缓冲区。

步骤5，宿主服务器的主机程序从对应缓冲区读取FPGA的计算结果，宿主服务器根据节点不平衡有功/无功功率更新当前稀疏矩阵的数据及状态；

步骤6，将更新后的稀疏矩阵数据继续下发到FPGA加速卡，执行雅克比矩阵运算模块；

步骤7，宿主服务器的主机程序读取雅克比矩阵计算结果，并更新稀疏矩阵状态，然后判断潮流计算是否迭代结束，如未达到迭代次数，则返回步骤2，如已迭代结束，则判断是否收敛并输出计算结果到文档。

现有技术中的基于运算树GPU的潮流计算并行加速架构每次迭代需要重新构造运算树，当迭代次数较多时，将消耗掉大量执行时间。而本实施方式根据潮流算法的运算模块进行芯片内核预编程，将节点注入功率、雅克比矩阵的计算方程定制化编译到FPGA芯片中。如潮流计算算法本身在求解稀疏矩阵时采用了更简单、收敛性更好的计算方式，可随时在FPGA上新增新的计算模块，甚至可以满足系统根据电网特性随意切换、调用不同的稀疏矩阵计算方法的需求，以达到更优的计算结果。且在系统运行过程中，只需要将稀疏矩阵数据下发到FPGA即可，无其他数据结构重构步骤，进一步简化了运算步骤，提升了算法运行效率。

本发明的第三实施方式涉及一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于软硬件协同的FPGA潮流计算加速架构的加速方法的步骤。

本发明的第四实施方式涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于软硬件协同的FPGA潮流计算加速架构的加速方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于软硬件协同的FPGA潮流计算加速架构，其特征在于，包括宿主服务器和FPGA芯片，所述宿主服务器通过调度模块与所述FPGA芯片相连，所述宿主服务器用于建立潮流迭代计算所需的稀疏矩阵；所述宿主服务器包括：接收单元，用于接收电网数据文件；解析单元，用于对所述电网数据文件进行解析，得到潮流计算所需的参数；构建单元，用于根据所述参数建立非线性潮流方程组，并采用稀疏矩阵压缩技术建立潮流迭代计算所需的稀疏矩阵；所述FPGA芯片利用并行运算特性用于对所述稀疏矩阵的计算进行加速；所述调度模块根据所述FPGA芯片的硬件资源将所述宿主服务器建立的稀疏矩阵的数据分发至所述FPGA芯片，并将所述FPGA芯片的计算结果传输给所述宿主服务器。

2.根据权利要求1所述的基于软硬件协同的FPGA潮流计算加速架构，其特征在于，所述FPGA芯片包括：第一计算单元，用于计算节点注入功率；第二计算单元，用于进行雅克比矩阵计算。

3.根据权利要求2所述的基于软硬件协同的FPGA潮流计算加速架构，其特征在于，所述FPGA芯片包括：第一存储单元，用于存储所述稀疏矩阵的数据；第二存储单元，用于存储所述第一计算单元和第二计算单元的计算结果。

4.根据权利要求2所述的基于软硬件协同的FPGA潮流计算加速架构，其特征在于，所述宿主服务器还包括：更新单元，用于基于所述第一计算单元或第二计算单元的计算结果更新所述稀疏矩阵的数据和状态。

5.根据权利要求1所述的基于软硬件协同的FPGA潮流计算加速架构，其特征在于，所述宿主服务器还包括：第一判断单元，用于判断所述潮流迭代计算是否完成；第二判断单元，用于在所述潮流迭代计算完成时判断计算结果是否收敛；输出单元，用于输出潮流迭代计算结果。

6.根据权利要求1所述的基于软硬件协同的FPGA潮流计算加速架构，其特征在于，所述调度模块通过OpenCL编写的硬件资源调用功能将所述宿主服务器建立的稀疏矩阵的数据分发至所述FPGA芯片。

7.一种采用如权利要求1-6中任一所述基于软硬件协同的FPGA潮流计算加速架构的加速方法，其特征在于，包括以下步骤：

控制宿主服务器建立潮流迭代计算所需的稀疏矩阵；

控制所述宿主服务器从所述FPGA芯片读取计算结果。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求7所述的加速方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求7所述的加速方法的步骤。