CN110515729A

CN110515729A - 基于图形处理器的图计算节点向量负载平衡方法及装置

Info

Publication number: CN110515729A
Application number: CN201910764459.1A
Authority: CN
Inventors: 黄立波; 郭辉; 郑重; 郭维; 雷国庆; 王俊辉; 隋兵才; 孙彩霞; 王永文; 倪晓强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-29
Anticipated expiration: 2039-08-19
Also published as: CN110515729B

Abstract

本发明公开了一种基于图形处理器的图计算节点向量负载平衡方法及系统，本发明方法包括定期找出所有SM核中最长的和最短的节点向量长度并计算差值，差值超过预设阈值则选择两个SM核、分别设置为等待捐赠负载和接收负载捐赠的状态；向状态为接收负载捐赠的SM核发送负载平衡请求，且在该SM核在全局存储中申请存储空间地址成功后通知状态为等待捐赠负载的SM核开始转移节点向量的数据，被转移的节点向量数据会被写入负载接收方申请的存储空间地址中。本发明能够高效地实现图形处理器流处理器核间的图计算节点向量负载平衡，具有硬件结构简单、对程序员编程透明的优点，不需对原有的程序进行修改即可完成所有的负载平衡任务。

Description

基于图形处理器的图计算节点向量负载平衡方法及装置

技术领域

本发明涉及图形处理器的负载平衡技术，具体涉及一种基于图形处理器的图计算节点向量负载平衡方法及装置。

背景技术

随着物联网（Internet of Things，IoT）、移动设备以及社交网络等应用技术的快速发展，这些应用每年产生的数据量正在以34%增长率快速增加，其中以图为代表的非结构化数据，其年均增长率更是达到了65%。面对如此海量的数据，如何在有效时间内完成数据分析并从中挖掘出有价值的信息是数据分析师所面临的一项挑战。随着GPU技术的日益成熟，其已经成为通用的大规模并行计算加速器。相比于通用微处理器，GPU的体系结构优势在于：（1）拥有大量简单但能耗较低的计算处理器核；（2）成千上万可同时并行运算的线程；（3）充足的片外存储器带宽。为了解决图计算算法的GPU并行化，许多研究工作提出了面向GPU的图计算编程模型，包括Medusa、Totem、CuSha、Gunrock等。这些编程模型不仅简化了基于GPU的图计算算法实现，而且通过软件优化提高了图计算并行计算的性能。

然而，由于图的拓扑结构分布不均衡，因此负载平衡问题一直是困扰实现高效并行图计算分析的关键问题。一开始，研究人员利用图划分策略将图划分为同等大小的子图，然后分配给各个线程执行。但是，每次迭代并不是所有节点都需要进行计算，因此不同线程的任务量也会不同。之后，新提出的图计算编程模型会维护一个活跃节点向量保存下次迭代需要计算的节点。软件负载平衡策略会将活跃节点向量划分为等长的向量分配给线程执行。然而，负载平衡策略一方面会增加额外的计算开销，另一方面由于活跃节点向量被多个线程共享因此原子操作的开销也会显著增加，从而降低了并行图计算的性能。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于图形处理器的图计算节点向量负载平衡方法及装置，本发明能够高效地实现图形处理器（GPU）流处理器核（Streaming Multiprocessor, SM）间的图计算节点向量负载平衡，具有硬件结构简单、对程序员编程透明的优点，不需对原有的程序进行修改即可完成所有的负载平衡任务。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于图形处理器的图计算节点向量负载平衡方法，所述图形处理器的控制处理器进行负载平衡的调度步骤包括：

1）图形处理器的控制处理器定期找出所有SM核中最长的和最短的节点向量长度并计算差值；

2）图形处理器的控制处理器判断计算得到的差值是否超过预设阈值，如果尚未超过预设阈值，则结束并退出；否则跳转执行下一步；

3）图形处理器的控制处理器选择需要进行负载平衡的两个SM核，将两个SM核的状态分别设置为等待捐赠负载状态和接收负载捐赠的状态，并计算需要捐赠的节点数量；

4）图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求，且在该SM核在全局存储中申请存储空间地址成功后跳转执行下一步；

5）图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据，被转移的节点向量数据会被写入负载接收方申请的存储空间地址中，完成节点向量的负载平衡。

优选地，步骤3）中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一。

优选地，4）图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求以及步骤5）中图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据均为通过SM核的控制寄存器实现的。

优选地，所述SM核的控制寄存器包括节点向量长度寄存器R_VLS、负载平衡控制寄存器R_BC、负载平衡状态寄存器R_BS以及两个负载平衡工作寄存器R_BW0和R_BW1，节点向量长度寄存器R_VLS用于记录SM核中的节点向量长度，负载平衡控制寄存器R_BC用于记录等待捐赠负载状态、接收负载捐赠的状态、正在捐赠节点的状态，负载平衡状态寄存器R_BS用于记录地址计算状态，负载平衡工作寄存器R_BW0用于记录全局存储中申请的存储空间地址，负载平衡工作寄存器R_BW1用于记录需要捐赠的节点数量。

本发明还提供一种基于图形处理器的图计算节点向量负载平衡装置，该装置被编程以执行本发明前述基于图形处理器的图计算节点向量负载平衡方法的步骤。

本发明还提供一种图形处理器，包括控制处理器和多个SM核，该控制处理器被编程以执行本发明前述基于图形处理器的图计算节点向量负载平衡方法的步骤。

本发明基于图形处理器的图计算节点向量负载平衡方法具有下述优点：

1、高效的基于图形处理器的图计算节点向量负载平衡策略。基于图形处理器的图计算节点向量负载平衡方法减少了软件负载平衡策略的额外开销。

2、简单的硬件。基于图形处理器的图计算节点向量负载平衡方法利用了GPU的控制处理器以及原有的片上网络来实现了节点向量负载平衡。为了管理SM间节点向量负载平衡，每个SM核都增加了一些控制寄存器，并且为控制处理器增加了监控和管理控制寄存器的功能。

3、简化编程。基于图形处理器的图计算节点向量负载平衡方法不需要在程序中显式调用负载平衡策略，完全由硬件结构完成所有的负载平衡任务。

本发明基于图形处理器的图计算节点向量负载平衡装置以及图形处理器具有与基于图形处理器的图计算节点向量负载平衡方法相同的技术效果，在此不再赘述。

附图说明

图1为本发明实施例中节点向量负载平衡的基本实施流程示意图。

图2为应用本发明实施例的GPU结构示意图。

图3为本发明实施例中执行节点向量负载平衡t0时刻的数据流示意图。

图4为本发明实施例中执行节点向量负载平衡t1时刻的数据流示意图。

图5为本发明实施例中执行节点向量负载平衡t2时刻的数据流示意图。

具体实施方式

如图1所示，本实施例基于图形处理器的图计算节点向量负载平衡方法包括图形处理器的控制处理器进行负载平衡的调度步骤，调度步骤包括：

本实施例中，步骤3）中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一。

本实施例中，4）图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求以及步骤5）中图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据均为通过SM核的控制寄存器实现的。

为了管理执行图计算任务的SM核间负载平衡，每个SM核都增加了一些控制寄存器，并且GPU的控制处理器增加了监控和管理这些寄存器的功能。

如图2所示，SM核的控制寄存器包括节点向量长度寄存器R_VLS、负载平衡控制寄存器R_BC、负载平衡状态寄存器R_BS以及两个负载平衡工作寄存器R_BW0和R_BW1，节点向量长度寄存器R_VLS用于记录SM核中的节点向量长度，负载平衡控制寄存器R_BC用于记录等待捐赠负载状态、接收负载捐赠的状态、正在捐赠节点的状态，负载平衡状态寄存器R_BS用于记录地址计算状态，负载平衡工作寄存器R_BW0用于记录全局存储中申请的存储空间地址，负载平衡工作寄存器R_BW1用于记录需要捐赠的节点数量。这些寄存器作为SM核间负载平衡单元和控制处理器之间的交互接口。负载平衡处理单元负责处理来自控制处理器的负载平衡请求。

如图2所示，图形处理器包括控制处理器和多个SM核，SM核中包括控制寄存器以及负载平衡处理单元。现有GPU的控制处理器负责给SM核分配内核函数执行任务以及管理硬件资源。本发明对控制处理器的功能进行扩展，增加了控制管理SM核间负载平衡的功能。控制寄存器主要负责记录负载平衡单元的工作状态、本地负载情况以及执行负载平衡时的信息交互。负载平衡处理单元负责处理来自控制处理器的负载平衡请求。

本实施例通过节点向量负载平衡策略负责平衡各个SM核需要处理的输入节点向量的工作量。但是，由于输出节点向量通常会作为下一次图计算迭代的输入节点向量，所以本实施例的节点向量负载平衡装置针对输出节点向量进行负载平衡。图3展示了一个控制处理器如何对输出节点向量进行负载平衡的例子。寄存器R_VLS记录了本地的输出节点向量的长度，并且SM核间负载平衡单元来更新。

节点负载平衡策略以固定时间为间隔进行负载平衡，也就是说控制处理器以固定时间为周期读取每个SM核的寄存器R_VLS的值，并判断最长的节点向量和最短的节点向量之间的差值是否超过事先定义好的阈值（如图3中时间为t0时状态所示）。如果差值超过阈值，控制处理器会在这两个SM核之间进行节点的负载平衡。

如图3所示，在初始的t0时时刻，SM核♯0的节点向量长度寄存器R_VLS的值是所有核中的最大值，SM核♯1的节点向量长度寄存器R_VLS的值是所有核中的最小值。那么，SM核♯0就是负载捐赠者，而SM核♯1就是负载接收者。本实施例中，步骤3）中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一，即为96。

如图4所示，在时间为t1（开始负载均衡）时，控制处理器将SM核♯0的负载平衡控制寄存器R_BC的状态设置为等待捐赠负载状态（DS），而将SM核♯1的负载平衡控制寄存器R_BC的状态设置为接收负载捐赠的状态（VR）。控制处理器同时也会将SM核♯1的负载平衡工作寄存器R_BW1设置为SM核♯0将要捐赠的节点数量（例子中为96）。随着负载平衡控制寄存器R_BC的状态更新，SM核♯1中的SM核间负载平衡单元就会知道SM核♯1需要准备从另一个SM核接收部分节点数据，并将负载平衡状态寄存器R_BS设置为地址计算状态（AC）来通知控制处理器将要接收的节点数据的地址正在计算中。之后，SM核♯1上的负载平衡单元会在全局存储中的属于它的输出节点空间中预留足够的空间来保存将要接收的节点数据。这一过程通过首先记录当时全局存储中输出节点的尾部指针地址作为存储接收的节点数据的起始地址，然后将该地址写入负载平衡工作寄存器R_BW0，最后将输出节点的尾部指针增加将要接收的节点数量。

如图5所示，在时间为t2（当保留的存储空间准备就绪）时，SM核♯1中的SM核间负载平衡单元就会将寄存器R_BS的状态设置为准备就绪状态（RD）来通知控制处理器。控制处理器接收到就绪信号后，会将地址拷贝到SM核♯0中的负载平衡工作寄存器R_BW0，并将寄存器R_BW1的值设为将要捐赠的节点数量，最后将寄存器R_BC的状态设置为正在捐赠节点的状态（VD）来通知SM核♯0中的负载平衡控制单元节点捐赠已经开始。然后，如图5的中间部分所示，被捐赠的节点数据会从SM核♯0的本地输出节点添加到全局存储中SM核♯1的输出节点的尾部。

综上所述，本实施例基于图形处理器的图计算节点向量负载平衡方法通过拓展GPU控制处理器的功能实现了SM核间节点向量的负载平衡。相比于现有面向图计算的GPU负载平衡策略，该负载平衡方法及装置可以高效地平衡SM核间的节点向量负载，提高GPU并行处理图计算问题的性能。

此外，本实施例还提供一种基于图形处理器的图计算节点向量负载平衡装置，该装置被编程以执行本实施例前述基于图形处理器的图计算节点向量负载平衡方法的步骤。此外，如图2所示，本实施例还提供一种图形处理器，包括控制处理器和多个SM核，该控制处理器被编程以执行本实施例前述基于图形处理器的图计算节点向量负载平衡方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图形处理器的图计算节点向量负载平衡方法，其特征在于，所述图形处理器的控制处理器进行负载平衡的调度步骤包括：

2.根据权利要求1所述的基于图形处理器的图计算节点向量负载平衡方法，其特征在于，步骤3）中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一。

3.根据权利要求2所述的基于图形处理器的图计算节点向量负载平衡方法，其特征在于，4）图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求以及步骤5）中图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据均为通过SM核的控制寄存器实现的。

4.根据权利要求3所述的基于图形处理器的图计算节点向量负载平衡方法，其特征在于，所述SM核的控制寄存器包括节点向量长度寄存器R_VLS、负载平衡控制寄存器R_BC、负载平衡状态寄存器R_BS以及两个负载平衡工作寄存器R_BW0和R_BW1，节点向量长度寄存器R_VLS用于记录SM核中的节点向量长度，负载平衡控制寄存器R_BC用于记录等待捐赠负载状态、接收负载捐赠的状态、正在捐赠节点的状态，负载平衡状态寄存器R_BS用于记录地址计算状态，负载平衡工作寄存器R_BW0用于记录全局存储中申请的存储空间地址，负载平衡工作寄存器R_BW1用于记录需要捐赠的节点数量。

5.一种基于图形处理器的图计算节点向量负载平衡装置，其特征在于，该装置被编程以执行权利要求1～4中任意一项所述基于图形处理器的图计算节点向量负载平衡方法的步骤。

6.一种图形处理器，包括控制处理器和多个SM核，其特征在于，该控制处理器被编程以执行权利要求1～4中任意一项所述基于图形处理器的图计算节点向量负载平衡方法的步骤。