CN112166414A - 用于高效并行计算的装置和方法 - Google Patents

用于高效并行计算的装置和方法 Download PDF

Info

Publication number
CN112166414A
CN112166414A CN201980031994.4A CN201980031994A CN112166414A CN 112166414 A CN112166414 A CN 112166414A CN 201980031994 A CN201980031994 A CN 201980031994A CN 112166414 A CN112166414 A CN 112166414A
Authority
CN
China
Prior art keywords
processing
unit
computing unit
rate
processing elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980031994.4A
Other languages
English (en)
Inventor
B·福罗维特
T·利珀特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Partec Cluster Competence Center GmbH
Original Assignee
Partec Cluster Competence Center GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Partec Cluster Competence Center GmbH filed Critical Partec Cluster Competence Center GmbH
Publication of CN112166414A publication Critical patent/CN112166414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5094Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/324Power saving characterised by the action undertaken by lowering clock frequency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3296Power saving characterised by the action undertaken by lowering the supply or operating voltage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Power Sources (AREA)
  • Advance Control (AREA)
  • Multi Processors (AREA)

Abstract

本发明提供了一种用于在并行计算系统中操作的计算单元,该计算单元包括多个处理元件和用于将计算单元连接到该计算系统的其它组件的接口,其中,每个处理元件具有标称最大处理速率NPR并且每个处理元件包括相应的存储器单元使得可以以预定的最大数据速率MBW从该存储器单元传输数据,并且接口提供最大数据传输速率CBW,其中为了提供用于计算单元的预定的峰值计算性能PP,该峰值计算性能PP可由数量n个处理元件在标称最大处理速率下操作而使得每秒进行PP=n×NPR次操作而获得,该计算单元包括整数倍f乘以n个处理元件,其中,f大于1并且每个处理元件被限制为以NPR/f的处理速率进行操作。

Description

用于高效并行计算的装置和方法
技术领域
本发明涉及并行处理系统,并且具体地涉及在性能/能耗方面具有改进效率的并行处理系统。
背景技术
在典型的并行处理系统中,各包括一个或多个处理元件的多个计算节点通过高速网络连接。计算节点的处理元件各具有内部存储器。处理元件在其计算节点内连接。该计算中节点的连接性可以用高速网络、分离的计算中节点高速网络或公共存储器(如例如在对称多处理SMP系统中)的技术来实现。这种布置图示在图1中。
图1示出了多个计算节点CN的布置,其中每个计算节点包括各具有相应存储器MEM的多个处理元件PE。计算节点经由高速网络HSN彼此连接,其中每个计算节点包括用于连接到高速网络的网络接口控制器NIC。单独的处理元件被连接在一起,并且还连接到网络接口控制器。
处理元件具有峰值性能PP,该峰值性能PP是该处理元件每秒可以执行的(浮点)运算的数量的上限,其被测量为每秒浮点运算次数或简称“flops”(虽然引用的是浮点运算,但该运算可以等同地是整数运算)。计算节点的峰值性能PPCN是其处理元件的峰值性能的总和。一般而言,给定应用A只可以实现峰值性能的分数ηA,其中0<η<1,η被称为持续效率。这样的原因在于,数据传输速率即处理元件的存储器到其计算寄存器之间的存储器带宽(MBW)是有限的,因此对于给定应用将把峰值性能的开发降低至ηA。对于输入/输出数据传输速率即处理元件到另一处理元件非计算节点的通信带宽(CBW),可以提出类似的论点,潜在地进一步降低对峰值性能的开发。
根据经验,高性能计算的从业者认为,针对数据密集型应用中的大多数,比率R=MBW/PP为1字节/浮点运算是实现使η接近1的必要要求。取决于给定应用A耗尽峰值性能所需的数据速率,处理元件的实际存储器带宽确定了可以针对应用A实现的ηA
当前的高端CPU遭受低至0.05至0.1字节/浮点运算的R,该数字在最近十年里随着处理元件的计算核心的数量增加而不断减小。当前的高端GPU仅实现低于0.15字节/浮点运算的R,其主要是为了满足图形应用以及就在最近的深度学习应用的数据要求而设计的。不利的结果是,大多数数据密集型应用将先验地实现在当前CPU上低于5%至10%的ηA和在当前GPU上大约15%的ηA,而与由正在被执行的算法或在所需处理元件方面的并行性而引起的任何进一步降低无关。对于处理元件的给定R,应用越数据密集,效率ηA变得越低。
这个问题已被其他人认识到,正如例如由Al Wegner在2011年的《ElectronicDesign》上发表的标题为“The Memory Wall is Ending Multicore Scaling(存储器墙正在终结多核扩展)”的文章中描述的,该文章可从http://www.electronicdesign.com/analog/memory-wall-ending-multicore-scaling获得。
可以针对给定处理元件的通信带宽进行类似考虑,该通信带宽描述了到另一处理元件的计算中节点和非计算节点的数据传输速率。这里重要的是通信带宽对代码可扩展性的影响。
就通信带宽计算中节点而言,可以区分以下三种情况:其中处理元件经由高速网络连接的计算节点、其中处理元件被连接到再次连接到高速网络的计算节点上的分离网络的计算节点、以及通过公共存储器交换数据计算中节点的计算节点。
关于通信非计算节点,高性能计算的从业者认为比率r=CBW/MBW>0.1至0.2对于实现众多应用的可扩展性是适当的。显然,通信带宽越接近于存储器带宽,可扩展性的条件越好。
理论上可能的通信带宽是由从处理元件到高速网络可用的串行通道数量确定的(这对于CPU和GPU均适用)。该数量被受当前芯片技术约束的串行器-解串器实现方式所限制。
重要的是,计算节点的网络接口控制器NIC被适当地确定尺寸,以维持数据流往返于计算节点的处理元件。
US 2005/0166073 A1描述了使用系统处理器的可变工作频率以便最大化系统存储器带宽。
US 2011/0167229 A1描述了一种计算系统,该计算系统包括多个计算设备,该计算设备各被连接到与存储器相对的存储设备(诸如硬盘驱动器)。该系统的目的是使检索所存储数据的数据速率与处理速度相匹配。该文档中的建议是使用具有较高数据传输速率的存储单元(即作为硬盘驱动器的替代或补充的固态驱动器)来与以较低时钟速率下操作的特定低功率处理器相结合。
US 3025/0095620描述了一种用于估计计算系统中的工作负载的可扩展性的技术。该系统具有单个多核处理器。
发明内容
本发明提供了一种用于在并行计算系统中操作的计算单元,该计算单元包括多个处理元件和用于将计算单元连接到计算系统的其它组件的接口,其中,每个处理元件具有标称最大处理速率NPR并且每个处理元件包括相应的存储器单元,使得可以以预定的最大数据速率MBW从存储器单元传输数据,并且接口提供最大数据传输速率CBW,其中为了提供用于计算单元的预定峰值计算性能PP,该峰值计算性能PP可由数量n个处理元件在标称最大处理速率下操作而使得每秒进行PP=n×NPR次操作而获得,该计算单元包括整数倍f乘以n个处理元件,其中,f大于1并且每个处理元件被限制为以NPR/f的处理速率进行操作。
在另一方面,本发明提供了一种操作计算单元的方法,该计算单元包括多核处理器和多个图形处理元件GPU,每个GPU具有每秒PPG次操作的标称峰值性能,该方法包括使GPU以其标称峰值性能速率的分数(fraction)1/f进行操作,其中计算单元提供每秒PP次操作的预定峰值计算性能并且计算单元具有n乘以f个GPU使得PP等于PPG的n倍。
本发明涉及这样的事实,即处理元件的时钟频率v按因数f减小可以使处理元件的能耗按因数f或更多来减小。该过程被称为“降频”。
以下近似公式适用于处理元件的器件功耗:P∝CV2v,其中,C是电容,V是电压而P是功耗。这意味着P与v成线性比例,与V成二次比例。
关于作为示例的GPU的时钟频率,近年来,已经发表了关于功率建模的大量文章,这些文章除了其它内容以外,力求将功耗分配给处理元件的各个部分。利用最新的NVIDIAGPU,可以改变流式多处理器(SM)的频率。这是由硬件越来越多地进行动态设计和自主控制,以便最佳地使用可用功率预算。据文献记载,存储器子系统的频率不可以改变,并且在当前一代中被自主计时。这使得其性能被存储器带宽限制的应用有可能通过稍微降低SM的频率来改进能量平衡。以这种方式,可以预期有约10%的效果。
降频机器的性能经常好于预期。在正常桌面使用环境下,很少要求完全的处理元件性能。即使当系统繁忙时,通常也花费大量时间等待来自存储器或其它设备的数据。
该事实原则上允许在频率v下操作的安装在计算节点上的处理元件能够被在频率v/f下操作的多个(f个)处理元件取代,而无需改变计算节点的累积计算能力PPCN。另外,计算节点的能耗被保持或潜在地减少。实际上,将选择f=2或f=3。
本发明的关键方面在于,对于如现代CPU和GPU那样的处理元件,可以降低计算频率f,而同时没有减小处理元件的存储器带宽。结果,在该修改中,比率R按因数f增大。要注意的是,在不调整存储器速度的情况下不可能提高计算核心的工作频率。
其次,将计算节点的处理元件的数量按因数f增加使计算节点上的可用串行通道的总数量按因数f增加。因此,输入/输出操作非计算节点的比率r也被按因数f提高。
这些改进使每个计算节点的并发性按因数f增加。这要求针对各种高度可扩展的应用调谐算法方法,但原则上这并没有问题。
虽然能耗预计会保持恒定,但处理元件的数量增加乍一看可能会增加投资成本。然而,这些成本中的大量成本将归因于存储器,其可以在每个计算节点的存储器总量保持恒定的同时针对每个处理元件按因数f降低。此外,在较低频率下使用高端处理元件可能会允许开发无法在峰值频率下操作的成本低得多的收益部门。
作为第二种措施,可以执行降低处理元件的工作电压V,并且将导致能耗进一步降低。因功耗与电压成二次比例,对电压的依赖性可能很大。该“降电伏(undervolting)”可以与降频一起使用或者分开使用,并且是本发明为改进处理元件的计算部分的能耗的策略的另一要素。
本发明提供了提高了并行处理系统在性能和能耗方面的效率的装置。引入技术修改,其降低处理元件的工作频率并相应地增加处理元件的数量以在增加的应用性能下实现整个系统的相同峰值性能。这些修改影响了影响整体效率的两个系统参数;存储器用于将按处理节点的峰值性能划分的数据带宽以及处理节点的数据带宽注册到按处理节点的峰值性能划分的并行系统的高速网络中。这允许在节点的能耗恒定或甚至更低的情况下节点的并行性能够增加。以这种方式,可以将系统调谐成最佳的应用性能。可以针对任何所期望的措施选择最佳值,例如,某个应用组合的平均应用性能或针对某个应用的最佳性能。由于在保持存储器和输入/输出性能的同时所使用的处理元件将在其处理单元的计算核心的较低工作频率下操作,因此总投资成本也预期保持类似。
所提出的本发明允许根据所选择的期望标准(例如,针对某个应用组合的平均最大功率或针对某个应用的最大功率)选择因数f,该因数f确定了处理元件频率的降低和计算节点上的处理元件数量的对应增加。实际上,这两种修改也可以被独立应用,这取决于系统关键参数的影响,诸如能耗和投资成本以及最佳性能,尤其是关于相对于可扩展性的架构和应用的交互。
附图说明
现在将只以示例的方式参考附图来描述本发明的优选实施例,在附图中:
图1是常规并行处理系统的简化示意图;
图2是包括两个图形处理单元GPU和每秒25万亿次浮点运算的峰值性能速率的计算节点的示意图;以及
图3是包括多达图2的布置两倍的图形处理单元但峰值性能速率相同的计算节点的示意图。
具体实施方式
本发明可以利用现有技术来实现。举例而言,它可能是加速在模块化超级计算系统内的提升模块(booster module)中的应用性能的方法,该超级计算系统目标在于到2021年达到峰值百亿亿级性能,如WO 2012/049247 A1和后续申请EP 16192430.3和EP18152903.3中所述,其出于所有目的通过引用结合于此。本发明的目标是相比于任何其它架构设计,针对数据密集型计算按因数f提高计算中节点应用性能,并且另外,增加通信带宽以便与存储器带宽同步,以更好地扩展具有大通信要求非计算节点的许多应用。
实现方式由一组使用Mellanox BlueField(BF)多核片上系统技术的计算节点给出。BlueField卡可以包括多个图形处理器单元GPU、第四代PCIe(PCIe gen 4)开关和一个或多个高数据速率HDR开关。每个BlueField卡可以配备多达四个GPU。BF卡各包括两个Mellanox主机通道适配器HCA,因此在非计算节点可以实现高达两倍的HDR性能。
AMD Radeon Vega 20 GPU被认为是该处理元件的具体示例,其预计将于2018年中期正式交付。Vega-20 GPU可以通过16个第四代PCIe通道连接到BF计算节点上的PCI-e接口。GPU预计配备有32GB的HBM-2存储器,其被分割成各8GB的四个存储器库。16GB的HBM-2也是可能的,其被同样组织成各4GB的四个存储器库。因此,存储器速率对于这两种配置可以是相同的。
在预期存储器带宽为每秒1.28TB且预期峰值性能为每秒12.5万亿次浮点运算(双精度)的情况下,R=0.1。尽管这与从业者的1字节/浮点运算的规则相差为因数10之远,但它仍然是可用的最优比率R之一。
通信带宽由16个第四代PCIe通道限制,这些通道在每个通道和方向能够各有2GB。在r=64GB/1.28TB=0.05的情况下,对于数据密集型应用肯定会遇到严重的可扩展性问题。R和r的任何改进在这方面将是有帮助的。
这由图2和图3示意性地图示。
让标准配置包括每个BF-CN的两个GPU作为处理元件,其在峰值频率v下操作从而实现峰值性能。图2中描绘了初始配置。就计算节点而言,给出或预计以下的系统参数:
·每个计算节点的GPU的数量:2
·f:1
·每个计算节点的能耗:2×150W=300W
·每个计算节点的存储器:64GB
·每个计算节点的存储器带宽:每秒2.56TB
·每个计算节点的峰值性能:每秒25万亿次浮点运算dp
·每个计算节点的R:0.1
·每个计算节点的第四代PCIe通道:32
·每个计算节点的通信速度双向:128GB/s(1/2用于从处理元件到处理元件,1/2用于到NIC)
·可能的2×Mellanox HDR:每秒100GB双向
·每个计算节点的r:0.05
·与通信不平衡的NIC
图3中示出的改进配置包括每个BF计算节点的四个GPU作为处理元件,其在峰值频率v的一半下操作(其中f=2),从而提供相同的计算标称节点峰值性能值。在这种情况下,处理元件将进行操作以达到标准配置的峰值性能的一半。至于改进的计算节点,给出或预计以下的系统参数:
·每个计算节点的GPU的数量:4
·f:2
·所预计的每个计算节点的能耗:4×75W=300W
·每个计算节点的存储器:每个GPU 64GB@16GB或128GB@32GB
·每个计算节点的存储器带宽:每秒5.12TB
·每个计算节点的峰值性能:每秒25万亿次浮点运算dp
·每个计算节点的R:0.2
·每个计算节点的第四代PCIe通道:64
·每个计算节点的通信速度双向:256GB/s(1/2用于从处理元件到处理元件,1/2用于到NIC)
·可能的2×Mellanox HDR:每秒100GB双向
·每个计算节点的r:0.05
·与通信平衡的NIC
可以在降频的基础上添加降电伏,以进一步降低能耗。与施加全电压的情况相比,处于降电伏的处理元件的稳定性可能受到的影响较小。

Claims (7)

1.一种用于在并行计算系统中操作的计算单元,所述计算单元包括多个处理元件和用于将所述计算单元连接到所述计算系统的其它组件的接口,其中,每个处理元件具有标称最大处理速率NPR并且每个处理元件包括相应的随机存取存储器单元使得可以以预定的最大数据速率MBW从所述存储器单元传输数据,并且所述接口提供最大数据传输速率CBW,其中为了提供用于所述计算单元的预定的峰值计算性能PP,该峰值计算性能PP可由数量n个处理元件在标称最大处理速率下操作而使得每秒进行PP=n×NPR次操作而获得,所述计算单元包括整数倍f乘以n个处理元件,其中,f大于1并且每个处理元件被限制为以NPR/f的处理速率进行操作。
2.根据权利要求1所述的计算单元,其中,所述单元展现出的存储器带宽是具有n个处理元件的假设计算单元的存储器带宽的f倍。
3.根据权利要求1或权利要求2所述的计算单元,其中,所述计算单元的所述处理元件是图形处理单元。
4.根据任一前述权利要求所述的计算单元,其中,所述处理元件通过接口单元被连接在一起,每个所述处理元件通过多个即S个串行数据通道被连接到所述接口单元。
5.根据任一前述权利要求所述的计算单元,其中,所述计算单元是包括被布置为控制所述处理元件的多核处理器的计算机卡。
6.根据任一前述权利要求所述的计算单元,其中,所述最大数据传输速率在处理元件到处理元件的通信速率的30%内。
7.一种使计算单元进行操作的方法,所述计算单元包括多核处理器和多个图形处理元件GPU,每个GPU具有每秒PPG次操作的标称峰值性能,所述方法包括使所述GPU以所述GPU的标称峰值性能速率的分数1/f进行操作,其中所述计算单元提供每秒PP次操作的预定峰值计算性能并且所述计算单元具有n乘以f个GPU使得PP等于PPG的n倍。
CN201980031994.4A 2018-05-15 2019-05-15 用于高效并行计算的装置和方法 Pending CN112166414A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18172497.2 2018-05-15
EP18172497 2018-05-15
PCT/EP2019/062483 WO2019219747A1 (en) 2018-05-15 2019-05-15 Apparatus and method for efficient parallel computation

Publications (1)

Publication Number Publication Date
CN112166414A true CN112166414A (zh) 2021-01-01

Family

ID=62217759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980031994.4A Pending CN112166414A (zh) 2018-05-15 2019-05-15 用于高效并行计算的装置和方法

Country Status (7)

Country Link
US (1) US20210157656A1 (zh)
EP (1) EP3794448A1 (zh)
JP (1) JP2021523491A (zh)
KR (1) KR20210009311A (zh)
CN (1) CN112166414A (zh)
CA (1) CA3097289A1 (zh)
WO (1) WO2019219747A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110167229A1 (en) * 2009-12-16 2011-07-07 The Johns Hopkins University Balanced data-intensive computing
US20150095620A1 (en) * 2013-09-27 2015-04-02 Avinash N. Ananthakrishnan Estimating scalability of a workload
US20160196121A1 (en) * 2015-01-02 2016-07-07 Reservoir Labs, Inc. Systems and methods for energy proportional scheduling
CN107465500A (zh) * 2017-07-20 2017-12-12 广州慧睿思通信息科技有限公司 基于fpga的md5暴力破解系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099433A (ja) * 2000-09-22 2002-04-05 Sony Corp 演算処理システム及び演算処理制御方法、タスク管理システム及びタスク管理方法、並びに記憶媒体
US7321979B2 (en) 2004-01-22 2008-01-22 International Business Machines Corporation Method and apparatus to change the operating frequency of system core logic to maximize system memory bandwidth
WO2008120393A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 情報処理装置、情報処理装置設計方法、情報処理装置設計プログラム
FR2943158B1 (fr) * 2009-03-12 2011-04-08 St Wireless Sa Procede de commande d'un transfert de donnees sur un bus informatique a transmission serie.
EP2442228A1 (en) 2010-10-13 2012-04-18 Thomas Lippert A computer cluster arrangement for processing a computaton task and method for operation thereof
KR102298602B1 (ko) 2014-04-04 2021-09-03 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 확장가능한 애플리케이션 표시

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110167229A1 (en) * 2009-12-16 2011-07-07 The Johns Hopkins University Balanced data-intensive computing
US20150095620A1 (en) * 2013-09-27 2015-04-02 Avinash N. Ananthakrishnan Estimating scalability of a workload
US20160196121A1 (en) * 2015-01-02 2016-07-07 Reservoir Labs, Inc. Systems and methods for energy proportional scheduling
CN107465500A (zh) * 2017-07-20 2017-12-12 广州慧睿思通信息科技有限公司 基于fpga的md5暴力破解系统及方法

Also Published As

Publication number Publication date
CA3097289A1 (en) 2019-11-21
WO2019219747A1 (en) 2019-11-21
KR20210009311A (ko) 2021-01-26
EP3794448A1 (en) 2021-03-24
US20210157656A1 (en) 2021-05-27
JP2021523491A (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
Pekhimenko et al. A case for toggle-aware compression for GPU systems
US10210121B2 (en) System for switching between a single node PCIe mode and a multi-node PCIe mode
CN112947736B (zh) 具有相同的指令集架构(isa)的非对称性能多核架构
CN107590085B (zh) 一种具有多级缓存的动态可重构阵列数据通路及其控制方法
EP2680155A1 (en) Hybrid computing system
US20130262831A1 (en) Methods and apparatus to avoid surges in di/dt by throttling gpu execution performance
US10187247B2 (en) Computer system and method for sharing computer memory
US10444813B2 (en) Multi-criteria power management scheme for pooled accelerator architectures
CN103744644A (zh) 采用四核结构搭建的四核处理器系统及数据交换方法
WO2013123106A1 (en) A system and method for a map flow worker
CN104601684A (zh) 云服务器系统
CN104967577B (zh) Sas交换机和服务器
US10491701B2 (en) Interconnect method for implementing scale-up servers
Barrett et al. Reducing the bulk in the bulk synchronous parallel model
CN102937997A (zh) 数据处理系统
EP3963583A1 (en) Multi-column interleaved dimm placement and routing topology
CN105224496A (zh) 一种动态可重构系统
CN110781109A (zh) 用于提供可配置存储媒体接口的系统及方法
CN112166414A (zh) 用于高效并行计算的装置和方法
CN102279728A (zh) 数据存储设备及数据计算方法
CN105791172A (zh) 一种基于龙芯2H的Rapid IO数据交换板
RU2815262C2 (ru) Устройство и способ эффективного параллельного вычисления
US9582462B2 (en) Computer system and method for sharing computer memory
CN103207843A (zh) 一种数据行宽度可动态配置的cache结构设计方法
CN105005547B (zh) 一种基于numa的多路服务器完全物理分区方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination