CN105579996A

CN105579996A - 硬件加速器的性能测量

Info

Publication number: CN105579996A
Application number: CN201480052506.5A
Authority: CN
Inventors: M·都萨纳普迪; S·卡玛拉巨; A·科瑞什纳
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-10-10
Filing date: 2014-09-28
Publication date: 2016-05-11
Anticipated expiration: 2034-09-28
Also published as: JP6444393B2; JP2016538621A; CN105579996B; US20150106816A1; WO2015051712A1; US9424159B2

Abstract

硬件加速器的性能测量，其中一个或多个计算机处理器可操作地耦接到至少一个硬件加速器，并且计算机存储器可操作地耦接到一个或多个计算机处理器，包括由一个或多个处理器操作处于饱和状态的加速器，由处理器以使得加速器的数据处理资源饱和的速率向加速器提交数据处理任务，从而使加速器拒绝所提交的任务中的至少一些；以及在加速器以饱和状态操作时，由处理器根据加速器接受多个提交的任务所经历的时间段来测量加速器性能。

Description

硬件加速器的性能测量

技术领域

本发明的领域是数据处理，或者更具体地，是用于硬件加速器的性能测量的方法、装置和产品。

背景技术

通用处理器在过去的几十年里已经是计算的主力，被用来构建单处理器系统、对称多处理器系统和芯片多处理器系统。虽然通用核心被设计成在工作负荷的集合上实现最好的“平均”表现，但是对于每个独立的工作负荷来说它们通常是次优的。在过去的几十年里，通用处理核心固有的低效(由于行业标准的约束和在广泛的工作负荷集合上的平均良好性能的设计目标引入的)通常被隐藏起来，这归因于每单位面积的指数级晶体管密度增长(Moore’sLaw，摩尔定律)和每单位面积的恒定功率密度(DennardScaling，丹纳德缩放比例定律)。新的现实是，虽然摩尔定律继续提供每单位面积不断增加的晶体管数量，但丹纳德缩放比例定律已经显著地放缓。这意味着利用通用核心的性能增长只有在芯片和系统功率预算的超线性增长的情况下才是可能的。因此，未来的计算机器将被迫从通用计算机的能量低效向专门的特定于任务的处理器或加速器移动。针对特定的工作负荷使硬件核心专门化给出了显著的性能优势，以及每瓦特性能的优势。从通用处理器向特定于任务的加速器卸载某些任务可以导致执行的加速(在一些情况下，按照任务的数量级加速)，而与在通用处理器上做同样的任务相比，消耗较少的功率。

测量加速器的性能被用来验证加速器设计。它对于理解设计瓶颈、引导芯片设计、系统设计和软件设计是有价值的工具。但是，对于准确地进行这种测量存在显著的挑战。通常，有两种测量加速器性能的方式。第一种涉及在加速器中对性能计数器(如果可用的话)编程。第二种方法使用软件测量工具来识别加速器对工作的完成，随后读取定时器寄存器。第二种方法是优选的方法-它更普遍(即使在特定的性能计数器不可用时也工作)、更可靠(无需依赖于可以对性能计数器高效地编程的库)、而且更简单(无需了解可用的性能计数器的错综复杂、它们的意思等等)。例如，在实验室系统提出期间，性能计数器常常不是现成可用的，至少它们不是测量工具可用的。甚至在性能计数器变得可用之后，也有需要解决的错误。同时，第二种方法继续工作。这就是说，第二方法依赖于对在通用核心上运行并与加速器通信的测量软件的使用。

这些现有技术方法存在问题。软件测量工具必须与-经由片上或片下互连附接的-相对远离的加速器通信(或者直接地或者经由存储器)。此外，软件必须执行至少少量的指令来测试加速器对工作的完成，执行该指令是要花时间的。而且，所有完成后的测量步骤都花时间，从而导致最佳情况下的测量粒度-即，软件测试任务完成所需的最短时间。这些现有技术在加速器处的任务完成速率与这种测量粒度相比较慢的时候起作用，但是加速器处的完成速率常常比在通用核心上运行的软件测量工具或应用可用的粒度高得多-毕竟，加速的全部意义就是比任何通用核心或处理器都进行得快。对于针对少量数据进行工作的加速器，诸如对小的以太网分组的加密，更是如此。在这种情况下，主要任务甚至在性能测量工具能够探测和识别出该任务被完成之前一个统计上显著的时间量的时候就可能已经在加速器处完成。

发明内容

描述了用于硬件加速器的性能测量的方法、装置和产品，其中一个或多个计算机处理器可操作地耦接到至少一个硬件加速器，并且计算机存储器可操作地耦接到该一个或多个计算机处理器，包括由一个或多个处理器操作处于饱和状态的加速器，由处理器以使得加速器的数据处理资源饱和的速率向加速器提交数据处理任务，从而使加速器拒绝所提交的任务中的至少一些；并且在加速器在饱和状态下操作的同时，由处理器根据加速器接受多个所提交的任务所经历的时间段来测量加速器性能。

根据以下如附图所示出的对本发明的示例实施例的更详细的描述，本发明的前述和其它目的、特征和优势将是显而易见的，其中相同的附图标记通常代表本发明的示例实施例中的相同部分。

附图说明

图1阐述了包括在硬件加速器的性能测量中有用的示例计算机的自动化计算机器的框图。

图2阐述了示出硬件加速器的性能测量的示例方法的流程图。

图3阐述了用于硬件加速器的性能测量的另一示例方法的时序图。

图4阐述了示出用于硬件加速器的性能测量的另一示例方法的流程图。

具体实施方式

从图1开始，参考附图来描述根据本发明的用于硬件加速器的性能测量的示例方法、装置和产品。根据本发明的硬件加速器的性能测量通常是利用计算机，即利用自动化的计算机器实现的。因此，图1阐述了包括在根据本发明实施例的硬件加速器的性能测量中有用的示例计算机(152)的自动化计算机器的框图。图1的计算机(152)包括一个或多个计算机处理器(156)以及随机存取存储器(168)(‘RAM’)，随机存取存储器(168)通过高速存储器总线(166)和总线适配器(158)连接到处理器(156)和计算机(152)的其它组件。处理器(156)在这里被称为“一个或多个计算机处理器”，但是技术人员读者将理解，一些计算机可以只利用单个处理器测量加速器性能，而根据本发明的实施例来测量加速器性能的其它计算机将包含许多处理器、处理器当中的多个计算核心、多个处理器内的多个硬件执行线程等等。

图1的示例计算机还包括硬件加速器(157)。加速器或协处理器可以具有与通用处理器类似的能力。一些加速器可以从存储器中取出指令、执行程序流控制指令、进行输入/输出操作、管理存储器，等等。但是，加速器通常需要主机或主处理器、通用处理器，来获取加速器指令并且处理除加速功能之外的其它操作。在本说明书中为了清楚起见，通用处理器被称为“处理器”，并且专门的协处理器被称为“加速器”。适合于进行根据本发明实施例的性能测量的加速器包括浮点算术协处理器、图形引擎、视频适配器、数字信号处理器、高速I/O接口、加密加速器，等等。在图1的示例中，加速器(157)通过扩展总线(160)、总线适配器(158)和前侧总线(162)耦接到处理器(156)，所有这些都仅仅是示例体系架构，用于解释而不是用于限制。读者将理解的是，一些加速器，例如数学协处理器，直接在与通用处理器相同的集成电路基底上实现，并通过片上互连耦接到处理器。视频适配器(209)是通过专用的高速视频总线(164)而不是扩展总线(160)连接到处理器(157)的视频加速器的示例。互连加速器和处理器的其它方式是本领域技术人员能够想到的，并且所有这些方式也都在本发明的范围之内。

在RAM(168)中存储的是操作处理器(156)的应用程序(182)，以使得处理器向加速器(157)提交数据处理任务(208)。在应用控制下，处理器通过首先操作处于饱和状态的加速器，即，通过以使加速器的数据处理资源饱和的速率向加速器提交数据处理任务，来测量加速器性能，从而使得加速器拒绝所提交的任务中的至少一些任务。RAM还包含加速器控制块(210)，其中每个控制块是代表和描述提交给加速器的任务的结构。每个控制块包括，例如，输入缓冲区地址、输入缓冲区尺寸、输出缓冲区地址、输出缓冲区尺寸，以及状态-包括RETRY指示符(211)，诸如当被设置时指示加速器已经拒绝该控制块所代表的任务的标志或存储器位(memorybit)，其中RETRY标志被设置为TRUE。作为RETRY指示符(211)的替代，至少在一些实施例中，加速器可以通过在处理器中的一个或多个处理器本身上的状态寄存器(214)中设置BUSY位(212)，来发信号通知它已经拒绝所提交的任务。实现拒绝所提交的任务的加速器指示的其它方式将是本领域技术人员能够想到的，并且所有这些方式都完全在本发明的范围之内。

也在图1的示例中的RAM(168)中的是性能测量程序(184)，其在加速器在饱和状态下操作的同时操作处理器(156)中的至少一个，用以根据加速器(157)接受多个提交的任务(208)所经历的时间段来测量加速器性能。技术人员读者会想知道性能测量程序(184)为何被实现为单独的程序，而不是将该加速器用于数据处理任务的加速器的应用(182)的组成部分。答案是它可以；性能测量程序可以被实现为应用(182)内的线程或子例程，但是在许多实施例中，它将被单独地实现，如本文所示的那样。应用(182)可以是标准应用程序、会计程序或计算机游戏，它对于测量加速器性能是有用的，这是因为它已经被设置为这样做。因此，在应用(182)内安装性能测量功能可能需要改变现有程序的代码。还要牢记的是，计算机中加速器存在的全部意义在于，它比处理器快得多；因此，实现饱和的性能，尤其是针对相对小的任务，可能在处理器可以以使加速器饱和的速率提交任务之前需要在多个处理器上运行的应用的多个实例。与此同时，加速器性能的这种性能测量仍然只需要性能测量程序的一个实例，因此在应用的每个实例内具有单独的性能测量功能将有可能不是对资源的最佳利用。

也存储在RAM(168)中的是操作系统(154)。操作系统是负责应用程序的执行并负责代表应用程序管理对计算机资源、存储器、处理器时间和I/O功能的访问的计算机软件组件。对根据本发明实施例的硬件加速器的性能测量有用的操作系统包括UNIX^TM、Linux^TM、微软XP^TM、AIX^TM、IBM的i5/OS^TM，以及本领域技术人员将想到的其它操作系统。图1的示例中的操作系统(154)、应用(182)、性能测量程序(184)以及控制块(210)被示出在RAM(168)中，但是许多这样的组件通常也被存储在非易失性存储器中，诸如被存储在盘驱动器(170)上或闪速存储器(188)中。

图1的计算机(152)包括通过扩展总线(160)和总线适配器(158)耦接到处理器(156)和计算机(152)的其它组件的盘驱动器适配器(172)。盘驱动器适配器(172)以盘驱动器(170)的形式将非易失性数据存储连接到计算机(152)。计算机中对根据本发明实施例的硬件加速器的性能测试有用的盘驱动器适配器包括集成驱动电子设备(“IDE”)适配器、小型计算机系统接口(“SCSI”)适配器，以及本领域技术人员将想到的其它适配器。非易失性计算机存储器还可以被实现为光盘驱动器、电可擦除可编程只读存储器(所谓的“EEPROM”或“闪速”存储器)、RAM驱动器等，如本领域技术人员将想到的那样。

图1的示例计算机(152)包括一个或多个输入/输出(‘I/O’)适配器(178)。I/O适配器例如通过用于控制到诸如计算机显示屏幕之类的显示设备的输出以及来自诸如键盘和鼠标之类的用户输入设备(181)的用户输入的软件驱动器和计算机硬件，来实现面向用户的输入/输出。图1的示例计算机(152)包括视频适配器(209)，其是针对到诸如显示屏或计算机监视器之类的显示设备(180)的图形输出而专门设计的I/O适配器的示例。视频适配器(209)通过高速视频总线(164)、总线适配器(158)和也是高速总线的前侧总线(162)连接到处理器(156)。

图1的示例计算机(152)包括用于与其它计算机(182)进行数据通信以及用于与数据通信网络(100)进行数据通信的通信适配器(167)。这样的数据通信可以通过RS-232连接、通过诸如通用串行总线(‘USB’)之类的外部总线、通过诸如IP数据通信网络之类的数据通信网络、以及以本领域技术人员将想到的其它方式，被串行地执行。通信适配器实现硬件级的数据通信，通过该通信适配器，一台计算机直接地或通过数据通信网络向另一台计算机发送数据通信。对根据本发明实施例的硬件加速器的性能测量有用的通信适配器的示例包括用于有线拨号通信的调制解调器、用于有线数据通信网络通信的以太网(IEEE802.3)适配器，以及用于无线数据通信网络通信的802.11适配器。

为进一步解释，图2阐述了示出根据本发明实施例的硬件加速器的性能测量的示例方法的流程图。图2的方法被实施在与上面参考图1描述的计算机类似的计算机上，包括可操作地耦接到至少一个硬件加速器(157)的一个或多个计算机处理器(156)的计算机。在图2的方法中，处理器操作处于饱和状态的加速器，即通过以使加速器的数据处理资源饱和的速率向加速器提交数据处理任务(208)，使得加速器拒绝(216)所提交的任务中的至少一些。如前面所提到的那样，数据处理任务(208)的提交可以由在处理器(156)中的一个或多个上执行的应用程序(182)的一个或多个实例执行，并且进行(206)实际测量的过程可以由单独的性能测量程序(184)执行。

在图2的示例中，操作(202)处于饱和状态的加速器包括初始化(204)针对提交给加速器的每个任务的控制块(210)。如前面所提到的那样，每个控制块是描述提交给加速器的任务的结构。每个控制块包括，例如，输入缓冲区地址、输入缓冲区尺寸、输出缓冲区地址、输出缓冲区尺寸，以及状态指示符-其中对状态的指示包括RETRY指示符(211)，诸如当被设置时指示加速器已经拒绝该控制块所代表的任务的标志或存储器位，其中RETRY标志被设置为TRUE。即，在图2的示例方法中，在饱和状态下运行的加速器(157)拒绝所提交的任务(208)中的至少一些任务，并且加速器可以通过针对每个被拒绝任务在对应的控制块(210)中设置RETRY标志(211)，来指示(220)哪些任务被拒绝。作为在图2的示例中对RETRY指示符(211)的使用(220)的替代，加速器(157)可以通过在处理器上的状态寄存器(214)中设置BUSY位(212)来指示(218)它已经拒绝所提交的任务。

图2的方法还包括在加速器以饱和状态操作的同时，由处理器根据加速器接受多个提交的任务所经历的时间段来测量(206)加速器性能。作为操作(202)处于饱和状态的加速器、提交任务(208)等等的一部分，处理器读取系统时钟(215)并且在一些或甚至全部控制块中记录它们对应的任务被提交的时间(217)。通过知道N个任务(208)要被提交，处理器只需要记录第一个任务和最后一个任务的提交时间，以建立加速器接受多个提交的任务所经历的时间段-而不用将每个任务的提交时间写入到N个控制块当中的每一个。

而且，在图2的方法中，测量(206)加速器性能可选地包括将加速器接受多个提交的任务所经历的时间段作为加速器完成所接受的任务所需的时间段(222)。将接受时间作为完成时间是可行的，因为当在饱和状态下运行时，加速器必须完成一个任务以便能够接受下一个任务。以这种方式，接受时间追踪完成时间。

而且，在图2的方法中，测量加速器性能(206)可选地包括根据T＝N/(t₁–t₀)测量加速器性能(224)，其中T代表以每秒所接受的任务表示的吞吐量；N是在时间t₀与t₁之间由加速器接受的所提交任务的数量；t₀是在加速器的饱和操作开始之后所接受的第一个提交任务的接受时间；而t₁是第N个提交任务的接受时间。

而且，在图2的方法中，测量加速器性能(206)可选地包括根据B_I＝T*I来测量加速器性能，其中B_I代表以每秒的字节数表示的输入带宽；T代表以每秒所接受的任务表示的吞吐量；并且I代表每个接受的任务处理的输入数据字节的平均数。

而且，在图2的方法中，测量加速器性能(206)可选地包括根据B_O＝T*O来测量加速器性能，其中B_O代表以每秒字节数表示的输出带宽；T代表以每秒所接受的任务表示的吞吐量；并且O代表每个接受的任务处理的输出数据字节的平均数。

为进一步解释，图3阐述了用于根据本发明实施例的硬件加速器的性能测量的另一示例方法的时序图。在图3的这个示例中，一个或多个计算机处理器(156)足够快地向加速器(157)提交(302)若干个数据处理任务，以便使加速器饱和。在图3中，已提交的任务用黑点表示，被拒绝的任务用交叉影线灰点表示，而已完成的任务用交叉影线白点表示。为了能够快速进行提交，应用可能必须针对许多任务提前准备所有必要的控制块，然后在紧凑循环中向加速器进行提交。为了能够足够快地进行提交以便使加速器饱和，应用的多个实例可能需要在多于一个处理器上运行。

在一些任务被接受之后，加速器不能承担更多的工作，因为它的资源(诸如内部任务队列或输入缓冲区)已满。在那时，加速器通过例如在处理器寄存器中设置BUSY位或在控制块中设置RETRY标志，来拒绝(304)所提交的任务。这种反馈是默认需要的，以用于让进行提交的应用知道其提交的任务是否被正确接受。应用还使用这种响应来识别加速器可能已经达到其性能极限。即，在这个时间点(304)，加速器开始饱和操作。在这个点(304)之后，当下一个任务被成功接受(306)之后，在应用控制下，处理器记下来自定时器寄存器，即来自系统时钟的时间t₀。在处理器已经成功提交一定数量的N个任务之后，再次记下时间t₁(308)。t₁与t₀之间的差代表加速器在处于饱和状态下操作(310)时接受多个N个提交的任务所经历的时间段。

但是，我们发现t₁与t₀之间的这个接受时间还追踪在任务之间完成时间上的实际差异(312)。出现这种情况的原因是，在时间t₀的任务接受必须与来自该加速器的较早任务的实际完成相一致。这是因为在较早的尝试中任务无法立即被加速器接受。因此，任务可以被接受的唯一方式是在某个其它任务完成之后。因此，对饱和的加速器的接受速率可以被用来测量在加速器处的完成速率。

为了进一步解释，图4阐述了示出用于根据本发明实施例的硬件加速器的性能测量的另一示例方法的流程图。在图4的方法的开始处，与要被提交以供加速的N个任务相对应的N个特定于加速器的控制块结构(210)(也被称为协处理器请求块或CRB)在存储器中被预先分配并被初始化(402)。N应当被选择以使得N足够大以便溢出目标加速器的接受任务队列。如果这个信息不可用，则可能需要用对数增加的N进行若干次实验，以便识别什么N使加速器充分(comfortably)饱和。使加速器饱和是指加速器队列填满并且利用BUSY信号或RETRY信号作出响应，并且不接受提交的任务的状况。

任务(208)在紧凑循环中被足够快地提交(410)给加速器，以便使加速器饱和。这个步骤可能需要多个线程接合，以便达到可以使加速器饱和的足够高的提交速率。在每个任务被提交之后，可能通过读取状态寄存器，诸如IBMPowerPC^TM处理器中的CR0，来确定任务的状态(412)。如果状态寄存器指示任务被接受，则该方法使成功提交的任务的计数递增(414)并继续下一个任务。如果任务是在加速器达到饱和状况之后被接受的第一个任务，即变量“saturated”为真，则通过在时基寄存器中读取系统时钟的值，当前时间被记入“time_busy”变量(404，406)。条件寄存器状态还可以指示加速器不能接受任务，因为它是BUSY。在那种情况下，图4的方法将包括重新提交被拒绝的任务。

此外，如果任务是得到这种BUSY响应的第一个任务，即，被初始化为FALSE的变量“saturated”仍然是FALSE(416)，则变量“saturated”被设置为真(418)。在一次或多次重试之后，当任务被加速器接受时，变量“time_busy”被用来从系统时钟的时间寄存器值中记录当前时间(406)。这是在达到饱和状态后任务被加速器接受的第一时间。此外，变量“N_busy”被设置为此时“tasksSubmitted”变量的值。这个变量在总共N个任务当中识别在被加速器接受之前遭遇来自加速器的BUSY信号的第一个任务。任务提交继续进行，直到所有N个任务都被接受。对于被提交并接受的最后一个任务(408)，通过读取时间寄存器，系统时间值被记录到变量“time_last”中(420)。在所有任务都被接受之后，该方法等待所有任务完成(422)。

对结果进行错误检查(424)。如果有错误，则错误被报告(426)并且测试用例、应用或硬件被调试。但是，如果没有任何错误，这是底层硬件和应用工作正常的典型情形，则利用下面的公式来计算以每秒的操作计的加速器吞吐量性能(428)：

以每秒的任务计的吞吐量＝

(N-N_busy)*time_base_frequency/(time_last-time_busy)。

time_base_frequency指每秒的定时器滴答数。以每秒的字节数计的输入带宽和输出带宽可以基于平均任务对多少输入数据和输出数据进行工作的知识而被进一步计算。公式如下所示：

以每秒的字节数计的Input_Bandwidth＝吞吐量*每个任务处理的平均输入数据字节数

以每秒的字节数计的Output_Bandwidth＝吞吐量*每个任务生成的平均输出数据字节数

本发明的示例实施例主要是在用于硬件加速器的性能测量的全功能计算机系统的上下文中描述的。但是，本领域技术人员的读者将认识到，本发明也可以在部署在计算机可读存储介质上的、用于与任何合适的数据处理系统一起使用的计算机程序产品中体现。这种计算机可读存储介质可以是用于机器可读信息的任何存储介质，包括磁介质、光学介质或其它合适的介质。这种介质的示例包括硬盘驱动器中的磁盘、或软盘、用于光学驱动器的光盘、磁带、以及本领域技术人员将想到的其它介质。本领域技术人员将立即认识到，具有合适的编程部件的任何计算机系统将能够执行本发明的方法的步骤，如在计算机程序产品中所体现的那样。本领域的技术人员还将认识到，虽然本说明书中描述的一些示例实施例面向安装的、在计算机硬件上执行的软件，但是，被实现为固件或硬件的替代实施例也在本发明的范围之内。

如本领域技术人员将理解的那样，本发明的各方面可以被体现为方法、装置或系统、或计算机程序产品。因此，本发明的各方面可以采取完全硬件的实施例或组合软件和硬件方面的实施例的形式(固件、驻留软件、微代码、微控制器嵌入式代码等等)，所有这些在本文中一般可以被称为“电路”、“模块”、“系统”或“装置”。此外，本发明的各方面可以采取计算机程序产品的形式，该计算机程序产品被体现在其上包含计算机可读程序代码的一个或多个计算机可读介质中。

可以使用一种或多种计算机可读介质的任何组合。这种计算机可读介质可以是计算机可读的信号介质或者计算机可读的存储介质。计算机可读的存储介质可以是例如，但不限于电、磁、光、电磁、红外线或者半导体系统、装置或设备、或者以上所述的任何合适的组合。计算机可读的存储介质的更具体的示例(非穷尽列表)将包括以下：具有一条或多条电线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备、或者以上所述的任何合适组合。在本文件的上下文中，计算机可读存储介质可以是可包含或存储由指令执行系统、装置或设备使用或者与其相关的程序的任何有形介质。

计算机可读信号介质可以包括具有例如在基带中或者作为载波的一部分体现的计算机可读程序代码的传播数据信号。这种传播信号可以采取各种形式中的任何一种，包括但不限于电磁、光或者其任何合适组合。计算机可读信号介质可以是非计算机可读存储介质、并且可以传送、传播或者运输由指令执行系统、装置或设备使用或者与其相关的程序的任何计算机可读介质。体现在计算机可读介质上的程序代码可以利用任何适当的介质而被传送，该适当的介质包括但不限于无线、有线线路、光纤电缆、RF等、或者以上的任何合适组合。

用于执行本发明各方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写,该一种或多种编程语言包括诸如Java,Smalltalk、C++等之类的面向对象的编程语言，以及诸如“C”语言或类似的编程语言之类的常规的过程式编程语言。程序代码可以完全在用户计算机上执行、部分在用户计算机上执行、作为独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后者涉及远程计算机的情形中，远程计算机可以通过任意类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以连接到外部计算机(例如使用因特网服务提供商通过因特网来建立连接)。

参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图说明和/或框图，在本说明书中描述了本发明的各个方面。将理解的是，流程图说明和/或框图的每个方框，以及流程图说明和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而产生一种机器，以使得经由计算机或其它可编程数据处理装置的处理器执行的指令生成用于实现流程图和/或框图中的一个或多个方框中指定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读存储介质中，这些指令可以指导计算机、可编程数据处理装置、或其他设备以特定方式工作，以使得存储在计算机可读介质中的指令产生制造品，其包括实现流程图和/或框图中的一个或多个方框中指定的功能/动作的指令。也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程数据处理装置上执行的指令提供用于实现流程图和/或框图中的一个或多个方框中指定的功能/动作的过程。

附图中的流程图和框图说明了根据本发明的各个实施例的计算机装置、方法和计算机程序产品的可能实施方式的体系架构、功能和操作。在这一点上，流程图或框图中的每个方框可以代表模块、程序段或代码的一部分，所述模块、程序段或指令的一部分包括一个或多个用于实现指定的逻辑功能的可执行指令。需要注意的是,在一些替代的实施方式中，方框中所标注的功能可以以不同于附图所标注的顺序而发生。例如，两个接连示出的方框实际上可以基本上同时被执行，或该方框有时可以按相反的顺序被执行，这依赖于所涉及的功能而定。还要注意的是，框图和/或流程图说明中的每个方框、以及框图和/或流程图说明中的方框的组合，可以用执行指定的功能或动作的专用的基于硬件的系统，或者专用硬件与计算机指令的组合来实现.

根据以上描述，应当理解的是，在不背离本发明的真正精神的情况下，可以在本发明的各种实施例中进行修改和改变。本说明书中的描述仅仅是为了说明的目的，而不应当在限制的意义上被解释。本发明的范围仅仅由以下权利要求的语言所限制。

Claims

1.一种用于计算机中的硬件加速器的性能测量的方法，所述计算机包括可操作地耦接到至少一个硬件加速器的一个或多个计算机处理器，所述方法包括：

由所述一个或多个处理器操作处于饱和状态的加速器，由所述处理器以使得所述加速器的数据处理资源饱和的速率向所述加速器提交数据处理任务，从而使得所述加速器拒绝所提交的任务中的至少一些；以及

在所述加速器以饱和状态操作时，由所述处理器根据所述加速器接受多个提交的任务所经历的时间段来测量加速器性能。

2.如权利要求1所述的方法，其中测量加速器性能还包括：由所述一个或多个处理器将所述加速器接受多个提交的任务所经历的时间段作为所述加速器完成接受的任务所需要的时间段。

3.如权利要求1所述的方法，其中：

提交数据处理任务还包括：由在所述处理器中的一个或多个处理器上执行的应用程序的一个或多个实例向所述加速器提交数据处理任务；以及

测量加速器性能还包括：由在所述处理器当中的至少一个处理器上执行的性能测量程序测量加速器性能。

4.如权利要求1所述的方法，还包括由所述加速器在处理器状态寄存器中设置位，以指示所述加速器拒绝提交的任务。

5.如权利要求1所述的方法，其中测量加速器性能还包括根据T＝N/(t₁–t₀)测量加速器性能，其中：

T代表以每秒接受的任务表示的吞吐量；

N是在时间t₀与t₁之间加速器所接受的提交任务的数量；

t₀是在所述加速器的饱和操作开始之后所接受的第一个提交任务的接受时间；以及

t₁是第N个提交任务的接受时间。

6.如权利要求1所述的方法，其中测量加速器性能还包括根据B_I＝T*I测量加速器性能，其中：

B_I代表以每秒的字节数表示的输入带宽；

T代表以每秒接受的任务表示的吞吐量；以及

I代表每个接受的任务处理的输入数据字节的平均数。

7.如权利要求1所述的方法，其中测量加速器性能还包括根据B_O＝T*O测量加速器性能，其中：

B_O代表以每秒字节数表示的输出带宽；

T代表以每秒接受的任务表示的吞吐量；以及

O代表每个接受的任务处理的输出数据字节的平均数。

8.用于硬件加速器的性能测量的装置，所述装置包括可操作地耦接到至少一个硬件加速器的一个或多个计算机处理器，可操作地耦接到所述一个或多个计算机处理器的计算机存储器，所述计算机存储器具有部署在其中的计算机程序指令，当所述计算机程序指令被计算机处理器执行时，能够使所述装置通过以下来起作用：

由所述一个或多个处理器操作处于饱和状态的加速器，由所述处理器以使得所述加速器的数据处理资源饱和的速率向所述加速器提交数据处理任务，从而使所述加速器拒绝所提交的任务中的至少一些；以及

9.如权利要求8所述的装置，其中测量加速器性能还包括：由所述一个或多个处理器将所述加速器接受多个提交的任务所经历的时间段作为所述加速器完成接受的任务所需要的时间段。

10.如权利要求8所述的装置，其中：

提交数据处理任务还包括由在所述处理器当中的一个或多个处理器上执行的应用程序的一个或多个实例向实施加速器提交数据处理任务；以及

测量加速器性能还包括由在所述处理器当中的至少一个处理器上执行的性能测量程序测量加速器性能。

11.如权利要求8所述的装置，还包括所述加速器被配置以使得所述加速器在处理器状态寄存器中设置位，以指示所述加速器拒绝提交的任务。

12.如权利要求8所述的装置，其中测量加速器性能还包括根据T＝N/(t₁–t₀)测量加速器性能，其中：

T代表以每秒接受的任务表示的吞吐量；

N是在时间t₀与t₁之间所述加速器接受的提交任务的数量；

t₁是第N个提交任务的接受时间。

13.如权利要求8所述的装置，其中测量加速器性能还包括根据B_I＝T*I测量加速器性能，其中：

B_I代表以每秒字节数表示的输入带宽；

T代表以每秒接受的任务表示的吞吐量；以及

I代表每个接受的任务处理的输入数据字节的平均数。

14.如权利要求8所述的装置，其中测量加速器性能还包括根据B_O＝T*O测量加速器性能，其中：

B_O代表以每秒字节数表示的输出带宽；

T代表以每秒接受的任务表示的吞吐量；以及

O代表每个接受的任务处理的输出数据字节的平均数。

15.用于硬件加速器的性能测量的计算机程序产品，所述加速器可操作地耦接到一个或多个计算机处理器，所述计算机程序产品部署在计算机可读存储介质上，所述计算机程序产品包括计算机程序指令，当所述计算机程序指令被计算机处理器执行时，能够使实施处理器通过以下来起作用：

16.如权利要求15所述的计算机程序产品，其中测量加速器性能还包括：由所述一个或多个处理器将所述加速器接受多个提交的任务所经历的时间段作为所述加速器完成接受的任务所需要的时间段。

17.如权利要求15所述的计算机程序产品，其中：

提交数据处理任务还包括由在所述处理器当中的一个或多个处理器上执行的应用程序的一个或多个实例向所述加速器提交数据处理任务；以及

18.如权利要求15所述的计算机程序产品，其中测量加速器性能还包括根据T＝N/(t₁–t₀)测量加速器性能，其中：

T代表以每秒接受的任务表示的吞吐量；

N是在时间t₀与t₁之间所述加速器接受的提交任务的数量；

t₀是在所述加速器的饱和操作开始之后接受的第一个提交任务的接受时间；以及

t₁是第N个提交任务的接受时间。

19.如权利要求15所述的计算机程序产品，其中测量加速器性能还包括根据B_I＝T*I测量加速器性能，其中：

B_I代表以每秒字节数表示的输入带宽；

T代表以每秒接受的任务表示的吞吐量；以及

I代表每个接受的任务处理的输入数据字节的平均数。

20.如权利要求15所述的计算机程序产品，其中测量加速器性能还包括根据B_O＝T*O测量加速器性能，其中：

B_O代表以每秒字节数表示的输出带宽；

T代表以每秒接受的任务表示的吞吐量；及

O代表每个接受的任务处理的输出数据字节的平均数。