CN110515729A - 基于图形处理器的图计算节点向量负载平衡方法及装置 - Google Patents

基于图形处理器的图计算节点向量负载平衡方法及装置 Download PDF

Info

Publication number
CN110515729A
CN110515729A CN201910764459.1A CN201910764459A CN110515729A CN 110515729 A CN110515729 A CN 110515729A CN 201910764459 A CN201910764459 A CN 201910764459A CN 110515729 A CN110515729 A CN 110515729A
Authority
CN
China
Prior art keywords
load
core
graphics processor
processor
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910764459.1A
Other languages
English (en)
Other versions
CN110515729B (zh
Inventor
黄立波
郭辉
郑重
郭维
雷国庆
王俊辉
隋兵才
孙彩霞
王永文
倪晓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910764459.1A priority Critical patent/CN110515729B/zh
Publication of CN110515729A publication Critical patent/CN110515729A/zh
Application granted granted Critical
Publication of CN110515729B publication Critical patent/CN110515729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于图形处理器的图计算节点向量负载平衡方法及系统,本发明方法包括定期找出所有SM核中最长的和最短的节点向量长度并计算差值,差值超过预设阈值则选择两个SM核、分别设置为等待捐赠负载和接收负载捐赠的状态;向状态为接收负载捐赠的SM核发送负载平衡请求,且在该SM核在全局存储中申请存储空间地址成功后通知状态为等待捐赠负载的SM核开始转移节点向量的数据,被转移的节点向量数据会被写入负载接收方申请的存储空间地址中。本发明能够高效地实现图形处理器流处理器核间的图计算节点向量负载平衡,具有硬件结构简单、对程序员编程透明的优点,不需对原有的程序进行修改即可完成所有的负载平衡任务。

Description

基于图形处理器的图计算节点向量负载平衡方法及装置
技术领域
本发明涉及图形处理器的负载平衡技术,具体涉及一种基于图形处理器的图计算节点向量负载平衡方法及装置。
背景技术
随着物联网(Internet of Things,IoT)、移动设备以及社交网络等应用技术的快速发展,这些应用每年产生的数据量正在以34%增长率快速增加,其中以图为代表的非结构化数据,其年均增长率更是达到了65%。面对如此海量的数据,如何在有效时间内完成数据分析并从中挖掘出有价值的信息是数据分析师所面临的一项挑战。随着GPU技术的日益成熟,其已经成为通用的大规模并行计算加速器。相比于通用微处理器,GPU的体系结构优势在于:(1)拥有大量简单但能耗较低的计算处理器核;(2)成千上万可同时并行运算的线程;(3)充足的片外存储器带宽。为了解决图计算算法的GPU并行化,许多研究工作提出了面向GPU的图计算编程模型,包括Medusa、Totem、CuSha、Gunrock等。这些编程模型不仅简化了基于GPU的图计算算法实现,而且通过软件优化提高了图计算并行计算的性能。
然而,由于图的拓扑结构分布不均衡,因此负载平衡问题一直是困扰实现高效并行图计算分析的关键问题。一开始,研究人员利用图划分策略将图划分为同等大小的子图,然后分配给各个线程执行。但是,每次迭代并不是所有节点都需要进行计算,因此不同线程的任务量也会不同。之后,新提出的图计算编程模型会维护一个活跃节点向量保存下次迭代需要计算的节点。软件负载平衡策略会将活跃节点向量划分为等长的向量分配给线程执行。然而,负载平衡策略一方面会增加额外的计算开销,另一方面由于活跃节点向量被多个线程共享因此原子操作的开销也会显著增加,从而降低了并行图计算的性能。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于图形处理器的图计算节点向量负载平衡方法及装置,本发明能够高效地实现图形处理器(GPU)流处理器核(Streaming Multiprocessor, SM)间的图计算节点向量负载平衡,具有硬件结构简单、对程序员编程透明的优点,不需对原有的程序进行修改即可完成所有的负载平衡任务。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于图形处理器的图计算节点向量负载平衡方法,所述图形处理器的控制处理器进行负载平衡的调度步骤包括:
1)图形处理器的控制处理器定期找出所有SM核中最长的和最短的节点向量长度并计算差值;
2)图形处理器的控制处理器判断计算得到的差值是否超过预设阈值,如果尚未超过预设阈值,则结束并退出;否则跳转执行下一步;
3)图形处理器的控制处理器选择需要进行负载平衡的两个SM核,将两个SM核的状态分别设置为等待捐赠负载状态和接收负载捐赠的状态,并计算需要捐赠的节点数量;
4)图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求,且在该SM核在全局存储中申请存储空间地址成功后跳转执行下一步;
5)图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据,被转移的节点向量数据会被写入负载接收方申请的存储空间地址中,完成节点向量的负载平衡。
优选地,步骤3)中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一。
优选地,4)图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求以及步骤5)中图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据均为通过SM核的控制寄存器实现的。
优选地,所述SM核的控制寄存器包括节点向量长度寄存器RVLS、负载平衡控制寄存器RBC、负载平衡状态寄存器RBS以及两个负载平衡工作寄存器RBW0和RBW1,节点向量长度寄存器RVLS用于记录SM核中的节点向量长度,负载平衡控制寄存器RBC用于记录等待捐赠负载状态、接收负载捐赠的状态、正在捐赠节点的状态,负载平衡状态寄存器RBS用于记录地址计算状态,负载平衡工作寄存器RBW0用于记录全局存储中申请的存储空间地址,负载平衡工作寄存器RBW1用于记录需要捐赠的节点数量。
本发明还提供一种基于图形处理器的图计算节点向量负载平衡装置,该装置被编程以执行本发明前述基于图形处理器的图计算节点向量负载平衡方法的步骤。
本发明还提供一种图形处理器,包括控制处理器和多个SM核,该控制处理器被编程以执行本发明前述基于图形处理器的图计算节点向量负载平衡方法的步骤。
本发明基于图形处理器的图计算节点向量负载平衡方法具有下述优点:
1、高效的基于图形处理器的图计算节点向量负载平衡策略。基于图形处理器的图计算节点向量负载平衡方法减少了软件负载平衡策略的额外开销。
2、简单的硬件。基于图形处理器的图计算节点向量负载平衡方法利用了GPU的控制处理器以及原有的片上网络来实现了节点向量负载平衡。为了管理SM间节点向量负载平衡,每个SM核都增加了一些控制寄存器,并且为控制处理器增加了监控和管理控制寄存器的功能。
3、简化编程。基于图形处理器的图计算节点向量负载平衡方法不需要在程序中显式调用负载平衡策略,完全由硬件结构完成所有的负载平衡任务。
本发明基于图形处理器的图计算节点向量负载平衡装置以及图形处理器具有与基于图形处理器的图计算节点向量负载平衡方法相同的技术效果,在此不再赘述。
附图说明
图1为本发明实施例中节点向量负载平衡的基本实施流程示意图。
图2为应用本发明实施例的GPU结构示意图。
图3为本发明实施例中执行节点向量负载平衡t0时刻的数据流示意图。
图4为本发明实施例中执行节点向量负载平衡t1时刻的数据流示意图。
图5为本发明实施例中执行节点向量负载平衡t2时刻的数据流示意图。
具体实施方式
如图1所示,本实施例基于图形处理器的图计算节点向量负载平衡方法包括图形处理器的控制处理器进行负载平衡的调度步骤,调度步骤包括:
1)图形处理器的控制处理器定期找出所有SM核中最长的和最短的节点向量长度并计算差值;
2)图形处理器的控制处理器判断计算得到的差值是否超过预设阈值,如果尚未超过预设阈值,则结束并退出;否则跳转执行下一步;
3)图形处理器的控制处理器选择需要进行负载平衡的两个SM核,将两个SM核的状态分别设置为等待捐赠负载状态和接收负载捐赠的状态,并计算需要捐赠的节点数量;
4)图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求,且在该SM核在全局存储中申请存储空间地址成功后跳转执行下一步;
5)图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据,被转移的节点向量数据会被写入负载接收方申请的存储空间地址中,完成节点向量的负载平衡。
本实施例中,步骤3)中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一。
本实施例中,4)图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求以及步骤5)中图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据均为通过SM核的控制寄存器实现的。
为了管理执行图计算任务的SM核间负载平衡,每个SM核都增加了一些控制寄存器,并且GPU的控制处理器增加了监控和管理这些寄存器的功能。
如图2所示,SM核的控制寄存器包括节点向量长度寄存器RVLS、负载平衡控制寄存器RBC、负载平衡状态寄存器RBS以及两个负载平衡工作寄存器RBW0和RBW1,节点向量长度寄存器RVLS用于记录SM核中的节点向量长度,负载平衡控制寄存器RBC用于记录等待捐赠负载状态、接收负载捐赠的状态、正在捐赠节点的状态,负载平衡状态寄存器RBS用于记录地址计算状态,负载平衡工作寄存器RBW0用于记录全局存储中申请的存储空间地址,负载平衡工作寄存器RBW1用于记录需要捐赠的节点数量。这些寄存器作为SM核间负载平衡单元和控制处理器之间的交互接口。负载平衡处理单元负责处理来自控制处理器的负载平衡请求。
如图2所示,图形处理器包括控制处理器和多个SM核,SM核中包括控制寄存器以及负载平衡处理单元。现有GPU的控制处理器负责给SM核分配内核函数执行任务以及管理硬件资源。本发明对控制处理器的功能进行扩展,增加了控制管理SM核间负载平衡的功能。控制寄存器主要负责记录负载平衡单元的工作状态、本地负载情况以及执行负载平衡时的信息交互。负载平衡处理单元负责处理来自控制处理器的负载平衡请求。
本实施例通过节点向量负载平衡策略负责平衡各个SM核需要处理的输入节点向量的工作量。但是,由于输出节点向量通常会作为下一次图计算迭代的输入节点向量,所以本实施例的节点向量负载平衡装置针对输出节点向量进行负载平衡。图3展示了一个控制处理器如何对输出节点向量进行负载平衡的例子。寄存器RVLS记录了本地的输出节点向量的长度,并且SM核间负载平衡单元来更新。
节点负载平衡策略以固定时间为间隔进行负载平衡,也就是说控制处理器以固定时间为周期读取每个SM核的寄存器RVLS的值,并判断最长的节点向量和最短的节点向量之间的差值是否超过事先定义好的阈值(如图3中时间为t0时状态所示)。如果差值超过阈值,控制处理器会在这两个SM核之间进行节点的负载平衡。
如图3所示,在初始的t0时时刻,SM核♯0的节点向量长度寄存器RVLS的值是所有核中的最大值,SM核♯1的节点向量长度寄存器RVLS的值是所有核中的最小值。那么,SM核♯0就是负载捐赠者,而SM核♯1就是负载接收者。本实施例中,步骤3)中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一,即为96。
如图4所示,在时间为t1(开始负载均衡)时,控制处理器将SM核♯0的负载平衡控制寄存器RBC的状态设置为等待捐赠负载状态(DS),而将SM核♯1的负载平衡控制寄存器RBC的状态设置为接收负载捐赠的状态(VR)。控制处理器同时也会将SM核♯1的负载平衡工作寄存器RBW1设置为SM核♯0将要捐赠的节点数量(例子中为96)。随着负载平衡控制寄存器RBC的状态更新,SM核♯1中的SM核间负载平衡单元就会知道SM核♯1需要准备从另一个SM核接收部分节点数据,并将负载平衡状态寄存器RBS设置为地址计算状态(AC)来通知控制处理器将要接收的节点数据的地址正在计算中。之后,SM核♯1上的负载平衡单元会在全局存储中的属于它的输出节点空间中预留足够的空间来保存将要接收的节点数据。这一过程通过首先记录当时全局存储中输出节点的尾部指针地址作为存储接收的节点数据的起始地址,然后将该地址写入负载平衡工作寄存器RBW0,最后将输出节点的尾部指针增加将要接收的节点数量。
如图5所示,在时间为t2(当保留的存储空间准备就绪)时,SM核♯1中的SM核间负载平衡单元就会将寄存器RBS的状态设置为准备就绪状态(RD)来通知控制处理器。控制处理器接收到就绪信号后,会将地址拷贝到SM核♯0中的负载平衡工作寄存器RBW0,并将寄存器RBW1的值设为将要捐赠的节点数量,最后将寄存器RBC的状态设置为正在捐赠节点的状态(VD)来通知SM核♯0中的负载平衡控制单元节点捐赠已经开始。然后,如图5的中间部分所示,被捐赠的节点数据会从SM核♯0的本地输出节点添加到全局存储中SM核♯1的输出节点的尾部。
综上所述,本实施例基于图形处理器的图计算节点向量负载平衡方法通过拓展GPU控制处理器的功能实现了SM核间节点向量的负载平衡。相比于现有面向图计算的GPU负载平衡策略,该负载平衡方法及装置可以高效地平衡SM核间的节点向量负载,提高GPU并行处理图计算问题的性能。
此外,本实施例还提供一种基于图形处理器的图计算节点向量负载平衡装置,该装置被编程以执行本实施例前述基于图形处理器的图计算节点向量负载平衡方法的步骤。此外,如图2所示,本实施例还提供一种图形处理器,包括控制处理器和多个SM核,该控制处理器被编程以执行本实施例前述基于图形处理器的图计算节点向量负载平衡方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于图形处理器的图计算节点向量负载平衡方法,其特征在于,所述图形处理器的控制处理器进行负载平衡的调度步骤包括:
1)图形处理器的控制处理器定期找出所有SM核中最长的和最短的节点向量长度并计算差值;
2)图形处理器的控制处理器判断计算得到的差值是否超过预设阈值,如果尚未超过预设阈值,则结束并退出;否则跳转执行下一步;
3)图形处理器的控制处理器选择需要进行负载平衡的两个SM核,将两个SM核的状态分别设置为等待捐赠负载状态和接收负载捐赠的状态,并计算需要捐赠的节点数量;
4)图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求,且在该SM核在全局存储中申请存储空间地址成功后跳转执行下一步;
5)图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据,被转移的节点向量数据会被写入负载接收方申请的存储空间地址中,完成节点向量的负载平衡。
2.根据权利要求1所述的基于图形处理器的图计算节点向量负载平衡方法,其特征在于,步骤3)中计算需要捐赠的节点数量的值为两个SM核的输出节点向量长度之间的差值的二分之一。
3.根据权利要求2所述的基于图形处理器的图计算节点向量负载平衡方法,其特征在于,4)图形处理器的控制处理器向状态为接收负载捐赠的SM核发送负载平衡请求以及步骤5)中图形处理器的控制处理器通知状态为等待捐赠负载的SM核开始转移节点向量的数据均为通过SM核的控制寄存器实现的。
4.根据权利要求3所述的基于图形处理器的图计算节点向量负载平衡方法,其特征在于,所述SM核的控制寄存器包括节点向量长度寄存器RVLS、负载平衡控制寄存器RBC、负载平衡状态寄存器RBS以及两个负载平衡工作寄存器RBW0和RBW1,节点向量长度寄存器RVLS用于记录SM核中的节点向量长度,负载平衡控制寄存器RBC用于记录等待捐赠负载状态、接收负载捐赠的状态、正在捐赠节点的状态,负载平衡状态寄存器RBS用于记录地址计算状态,负载平衡工作寄存器RBW0用于记录全局存储中申请的存储空间地址,负载平衡工作寄存器RBW1用于记录需要捐赠的节点数量。
5.一种基于图形处理器的图计算节点向量负载平衡装置,其特征在于,该装置被编程以执行权利要求1~4中任意一项所述基于图形处理器的图计算节点向量负载平衡方法的步骤。
6.一种图形处理器,包括控制处理器和多个SM核,其特征在于,该控制处理器被编程以执行权利要求1~4中任意一项所述基于图形处理器的图计算节点向量负载平衡方法的步骤。
CN201910764459.1A 2019-08-19 2019-08-19 基于图形处理器的图计算节点向量负载平衡方法及装置 Active CN110515729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910764459.1A CN110515729B (zh) 2019-08-19 2019-08-19 基于图形处理器的图计算节点向量负载平衡方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910764459.1A CN110515729B (zh) 2019-08-19 2019-08-19 基于图形处理器的图计算节点向量负载平衡方法及装置

Publications (2)

Publication Number Publication Date
CN110515729A true CN110515729A (zh) 2019-11-29
CN110515729B CN110515729B (zh) 2022-05-24

Family

ID=68626575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910764459.1A Active CN110515729B (zh) 2019-08-19 2019-08-19 基于图形处理器的图计算节点向量负载平衡方法及装置

Country Status (1)

Country Link
CN (1) CN110515729B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729715A (zh) * 2023-01-10 2023-03-03 摩尔线程智能科技(北京)有限责任公司 用于gpu系统的负载分配方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080092143A1 (en) * 2006-09-29 2008-04-17 Hideyuki Koseki Storage apparatus and load balancing method
US20100153152A1 (en) * 2008-12-17 2010-06-17 Jaakob Kind Method and system for recursion check and low-level code generation for directed graph
US20130097415A1 (en) * 2011-10-12 2013-04-18 Qualcomm Incorporated Central Processing Unit Monitoring and Management Based On A busy-Idle Histogram
CN107317764A (zh) * 2016-04-26 2017-11-03 北京京东尚科信息技术有限公司 流量负载均衡的方法和系统
CN107484208A (zh) * 2017-08-30 2017-12-15 广东工业大学 一种异构网络的负载均衡算法及系统
US20180024869A1 (en) * 2016-07-22 2018-01-25 Board Of Regents, The University Of Texas System Guided load balancing of graph processing workloads on heterogeneous clusters
CN108089918A (zh) * 2017-12-06 2018-05-29 华中科技大学 一种面向异构服务器结构的图计算负载均衡方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080092143A1 (en) * 2006-09-29 2008-04-17 Hideyuki Koseki Storage apparatus and load balancing method
US20100153152A1 (en) * 2008-12-17 2010-06-17 Jaakob Kind Method and system for recursion check and low-level code generation for directed graph
US20130097415A1 (en) * 2011-10-12 2013-04-18 Qualcomm Incorporated Central Processing Unit Monitoring and Management Based On A busy-Idle Histogram
CN107317764A (zh) * 2016-04-26 2017-11-03 北京京东尚科信息技术有限公司 流量负载均衡的方法和系统
US20180024869A1 (en) * 2016-07-22 2018-01-25 Board Of Regents, The University Of Texas System Guided load balancing of graph processing workloads on heterogeneous clusters
CN107484208A (zh) * 2017-08-30 2017-12-15 广东工业大学 一种异构网络的负载均衡算法及系统
CN108089918A (zh) * 2017-12-06 2018-05-29 华中科技大学 一种面向异构服务器结构的图计算负载均衡方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729715A (zh) * 2023-01-10 2023-03-03 摩尔线程智能科技(北京)有限责任公司 用于gpu系统的负载分配方法、装置、设备和介质
CN115729715B (zh) * 2023-01-10 2023-09-01 摩尔线程智能科技(北京)有限责任公司 用于gpu系统的负载分配方法、装置、设备和介质

Also Published As

Publication number Publication date
CN110515729B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
US8250164B2 (en) Query performance data on parallel computer system having compute nodes
US20100299671A1 (en) Virtualized thread scheduling for hardware thread optimization
US8898422B2 (en) Workload-aware distributed data processing apparatus and method for processing large data based on hardware acceleration
CN107967180B (zh) 基于numa虚拟化环境下资源全局亲和度网络优化方法和系统
CN103562870A (zh) 异构核心的自动加载平衡
CN103197916A (zh) 用于源操作数收集器高速缓存的方法和装置
US11734059B2 (en) Hardware assisted fine-grained data movement
CN110032450B (zh) 一种基于固态盘扩展内存的大规模深度学习方法及系统
US20140143524A1 (en) Information processing apparatus, information processing apparatus control method, and a computer-readable storage medium storing a control program for controlling an information processing apparatus
US11816061B2 (en) Dynamic allocation of arithmetic logic units for vectorized operations
TWI754310B (zh) 純函數語言神經網路加速器系統及電路
CN100489830C (zh) 面向科学计算的64位流处理器芯片
US11023277B2 (en) Scheduling of tasks in a multiprocessor device
CN113849223A (zh) 用于使用性能标记的资源分配控制框架的装置和方法
CN110515729A (zh) 基于图形处理器的图计算节点向量负载平衡方法及装置
CN116680063A (zh) 任务调度方法、装置、计算系统、电子设备和存储介质
CN116069480A (zh) 一种处理器及计算设备
CN116048759A (zh) 数据流的数据处理方法、装置、计算机和存储介质
Lin et al. swFLOW: A dataflow deep learning framework on sunway taihulight supercomputer
CN109117247A (zh) 一种基于异构多核拓扑感知的虚拟资源管理系统及方法
CN110532091A (zh) 基于图形处理器的图计算边向量负载平衡方法及装置
JP2023544911A (ja) 並列量子コンピューティングのための方法及び装置
CN113076191A (zh) 一种集群gpu资源调度系统
KR101293700B1 (ko) 코어스 그레인드 재구성 구조를 위한 코드 생성 장치 및 그 코드 생성 방법
Krömer et al. An implementation of differential evolution for independent tasks scheduling on GPU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant