CN104572479A

CN104572479A - 预取策略控制

Info

Publication number: CN104572479A
Application number: CN201410515306.0A
Authority: CN
Inventors: 干纳施·苏亚那拉亚安·达斯卡; 鲁纳·霍姆; 大卫·汉娜赫·曼塞尔
Original assignee: Advanced Risc Machines Ltd
Current assignee: ARM Ltd
Priority date: 2013-10-24
Filing date: 2014-09-29
Publication date: 2015-04-29
Anticipated expiration: 2034-09-29
Also published as: GB2519644B; US20150121038A1; CN104572479B; GB201415068D0; US11494188B2; KR20150047422A; GB2519644A; KR102305238B1

Abstract

本发明涉及预取策略控制。单指令多线程(SIMT)处理器(2)包括执行电路(6)、预取电路(12)和预取策略选择电路(14)。预取策略选择电路用来检测正被执行的程序指令流的一个或多个特征，以识别程序内的给定数据存取指令是否将被多次执行。要运用的预取策略依据检测到的特征从多个可选择的预取策略中选择。

Description

预取策略控制

技术领域

本发明涉及数据处理系统领域。尤其是，本发明涉及在合并数据预取机制的数据处理系统中预取策略控制的领域。

背景技术

已知提供了合并有用于存取数据值的预取机制的数据处理系统。这种预取机制力图识别出现的数据存取的模式，并随后从存储器预取数据值，从而使得如果这些数据值随后被存取的话，这时与存取这些数据值相关的延时被减小。

发明内容

从一方面看，本发明提供了用于处理数据的装置，该装置包括：

指令执行电路，被配置为并行执行程序执行的多个线程，所述多个线程中的每一个线程与一个程序指令流相对应。

预取电路，被配置为根据选定的预取策略从存储器的存储地址预取数据值，所述选定的预取策略是多个可选择的预取策略中的一个；以及

预取策略选择电路，被耦合到所述指令执行电路和所述预取电路，并被配置为：

(i)检测所述程序指令流的一个或多个特征，所述一个或多个特征表示程序内的给定数据存取指令被执行多次的概率；以及

(ii)依据所述一个或多个特征来从所述多个可选择的预取策略中选择所述选定的预取策略。

本技术认可由预取电路选用的单个预取策略可以适用于某些类型的执行，但不适用于其他类型的执行。更具体地，本技术认可依据多线程处理器到的程序线程中的给定指令是否会执行多次，不同类型的预取策略可以被选择和使用。预取策略选择电路检测正被执行的程序指令流的表示给定数据存取指令被执行多次的一个或多个特征，，并随后运用此信息来转换所用的预取策略。

本技术在多个线程同步执行公共的程序指令序列的单指令多线程(SIMT)处理器的环境中特别有用。在这种环境下，若适当的预取策略被选择，即使没有给定数据存取指令的重复存取，也可执行预取。因此，对给定数据存取指令是否重复执行的检测可以被用作一种有用的选择标准，以便使用适当的预取策略。

SIMT处理器通常包括在多个线程之间共享的指令解码器，此共享为了减少硬件和处理的负担。SIMT处理器的另一个特征是执行的多个线程在这多个线程之间没有任何数据依赖性，这样这多个线程可以并行执行。

虽然应当认识到上述技术对SIMT处理器有特别的实用性，但是本技术也可以有利地用在其他类型的处理器中，比如细粒度多线程处理器，在细粒度多线程处理器中，(一般独立程序块的)多个线程通过一套公共的硬件在精密粒度程度上交错执行(例如，在同一时间针对单个指令或少数的指令)。

被检测以用来确定给定的存取指令是否可以重复执行的特征可以采取多种不同的形式，并且对于这些存取指令被重复执行具有确定性，或者替代地以概率的方式表示这种情况，例如，表示这样的执行可能会发生但并不确定。

可以被用来在预取策略之间进行选择并且与相对低开销的执行相关的一种形式的特征检测是否任何向后分支指令被执行。包括向后分支指令的指令流可能包括重复的数据存取指令，并且相应地可被用于在选择预取策略的应用中。该特征的另一种形式是对程序循环执行的检测(包含在某些实施例中对相反分支指令的检测)。

可表示给定存取指令的多次执行的另一示例特征为：给定线程的执行包括大于阈值数量的程序指令在该线程终止之前被执行。线程需要较长的时间来执行通常包括重复执行给定存取指令的循环，并相应地将其运用到选择预取策略的应用中。

在其他实施例中可利用查找电路，查找电路被配置为检测给定数据存取指令在程序线程之一中的重复执行。这种查找电路可将遇到的存取指令与程序计数器值相比较，来查看这些存取指令是否被重复执行。执行这种查找的一种有效的硬件方法是使用布隆过滤器电路。

进行选择的多个可选择的预取策略可包括各种不同的策略和各种数量不同的策略。一种能实现有价值的优势的相对低开销的执行为：当多个可选择的预取策略包括短期运行策略和长期运行策略时，短期运行策略适用于当程序指令流不包含执行多次的给定数据存取指令时预测数据值，长期运行策略适用于当程序指令流包含执行多次的给定数据存取指令时预测数据值。

作为短期运行策略和长期运行策略的示例，短期运行策略可以完全地集中于正被执行的存储器存取的存储器地址内的步幅模式，独立于那些存储器存取源发的线程，因为存即使各个线程不包含重复执行的数据存取指令，在储器存取内也存在可以通过预取电路利用的模式。可以存在一种可以利用的存储器存取模式，该存储器存取模式由于并行执行的不同线程之间的关系而产生。可以利用由于给定线程内的运行状况而出现的数据存取模式的长期运行策略的一个示例为：利用线程标识符以及可能的程序计数器值来识别对于给定线程出现的步幅模式。

在某些实施例中，预取策略选择电路被配置为选择短期运行策略作为默认策略，并随后当检测到表示存在给定数据存取指令的重复执行的一个或多个特征时转换到长期运行策略。这允许即使没有可以使用长期运行策略而被利用的模式出现，也能利用短期运行策略的可能性。

从另一方面来看，本发明提供了一种处理数据的装置，该装置包括：

用于并行执行程序执行的多个线程的指令执行装置，所述多个线程中的每一个线程与一个程序指令流相对应；

用于根据选定的预取策略从存储器的存储地址预取数据值的预取装置，所述选定的预取策略是多个可选择的预取策略中的一个；以及

被耦合到所述指令执行装置和所述预取电路的预取策略选择装置，该预取策略选择装置用于：

(ii)依据所述一个或多个特征来从所述多个可选择的预取策略中选择所述选定预取策略。

从另一方面来看，本发明提供了一种处理数据的方法，所述方法包括如下步骤：

并行执行程序执行的多个线程，所述多个线程中的每一个线程与一个程序指令流相对应；

根据选定的预取策略从存储器的存储地址预取数据值，所述选定的预取策略是多个可选择的预取策略中的一个；

检测所述程序指令流的一个或多个特征，所述一个或多个特征表示程序内的给定数据存取指令被执行多次的概率；以及

依据所述一个或多个特征来从所述多个可选择的预取策略中选择所述选定的预取策略。

本发明的上述和其他目的、特征和优点可以通过下面对示例性实施例的详细描述并结合附图清楚的表示出来。

附图说明

图1示意性地示出了用于执行SIMT处理的数据处理装置；

图2示意性地示出了多线程如何针对独立数据同步执行相同的代码；

图3示意性地示出了可应用本技术细粒度多线程；

图4示意性地示出了可以被用来表示其中很有可能存在被多次执行的给定数据存取指令的线程的向后分支指令；以及

图5是流程图，示意性地示出了依据对长期运行线程运行状况的一个或多个特征的检测对预取策略的选择。

具体实施方式

图1示意性地示出了SIMT数据处理装置2，SIMT数据处理装置2包括在多个执行单元6之间共享的指令解码器电路4，多个执行单元6一起构成了指令执行电路。执行单元6同步执行相同的程序指令流(如果可能)，以执行单指令多线程处理，得到可能的高数据处理吞吐量。这种类型的SIMT处理类似于本技术领域的那些SIMT处理，并且在本文不会做进一步的描述。

执行单元6执行可包括数据存取指令的程序指令，比如加载指令和存储指令。这些数据存取指令在高速缓存存储器8和主存储器10内存取数据。通常会有与数据存取指令相关的相对较长的延时，例如，如果发生高速缓存缺失(miss)。相应地，数据处理装置2包括预取电路12，预取电路12的功能是预测高速缓存8和存储器10内的哪些数据值将经受数据存取操作，以及在需要任何数据值之前，对这些数据值执行从主存储器10到高速缓存8的获取。预取电路12应用可包含识别数据存取模式的预取策略，比如识别与连续数据存取之间的存储器地址差异对应的步幅值。在某些情况下这些模式还可以与线程标识符和指令标识符(例如，指令地址)相关联。

数据处理装置2包括预取策略选择电路14，预取策略选择电路14耦合到预取电路12以及至少一个执行单元6。预取策略选择电路14用于监控执行单元6的运行状况以检测正被执行的程序指令的一个或多个特征。这些特征表示至少程序内的数据存取指令将被执行单元6执行多次的概率。这一个或多个特征可以是这样的，即它们明确地确定给定数据存取指令已经被执行多次，或者替代地可以仅仅表示关于给定的数据存取指令已经被执行多次的超过阈值的概率。明确地确定给定数据存取指令被执行多次或识别关于给定数据存取指令被执行多次的充分高的概率的实施例都涵盖在本技术中。

预取策略选择电路14依据表示关于至少程序线程内的数据存取指令被执行多次的充分高的概率的一个或多个特征的检测以应用此来从多个可选择的预取策略中选择匹配这种情况的所选策略。当一个或多个特征被检测到后，长期运行策略被选择，长期运行策略适于在当程序指令流包含被执行多次(例如与线程ID和/或程序指令地址相关)的给定数据存取指令时，预测要预取的数据值。默认假设是：线程最先执行采用的是短期运行策略，短期运行策略适于在当程序指令流没有被识别为包含被执行多次的给定数据存取指令时预测要预取的数据值。对于给定线程跨越不同执行单元6执行的多个实例，短期运行预测策略以及在应用该策略时做出的预取预测被选择。长期运行策略可以另外将独个线程的标识符以及该线程内的特定数据存取指令的标识符纳入到预测中，因此独个线程可以具有独自的预测。应当认识到的是可以采用各种不同的预取策略，并通过预取策略选择电路14在其间进行选择。

图2示意性地示出了多个执行单元6内执行公共的程序指令序列16的SIMT处理。每个执行单元6和与其同步(同步性)地运行的其他执行单元6同时(或基本同时)执行相同的指令。应当认识到的是独个线程可能在某些情况下失去同步(同步性)，比如发生异常或采用了未被其他线程采用的的分支。由不同线程处理的各自的数据可以是不同的。例如，给定的总处理工作负荷可以在不同的线程之间划分，每个线程执行总工作负荷的各自一小部分，比如处理形成总体图像所需像素的子集。

图1和图2对应于根据SIMT方法的处理。本技术还可发现在应用细粒度多线程的实施例中具有实用性。这种实施例的一个示例具有单个处理器，此处理器以细粒度为基础(例如，每次针对少数指令)将其处理时间在彼此交织的不同线程的执行间进行划分。与每个线程相关的状态可以被分别保持，并且可以转入和转出使用，正如线程之间的转换发生。例如，可以提供多个寄存器组，其中每个寄存器组与每个线程相关联。在这样的细粒度多线程环境内的预取电路可应用多个预取策略中可选择的一个预取策略，该可选择的一个预取策略是通过预取策略选择电路依据所执行的处理的一个或多个特征所选定的。选定的预取策略依据检测到的表示给定程序指令已经被多次执行的特征。

可被检测以表示给定数据存取指令被多次执行的一个或多个特征可以有很大不同。图4示意性地示出了检测的一个示例特征，包括正被执行的程序指令内的向后分支指令I5。检测到向后分支指令I5表示程序流包含循环，并且相应地在该程序线程内的给定数据存取指令有很高概率会被执行多次。这可以用来选择匹配当前的情况的预取策略。可以检测的特征的另一个示例是在线程内执行的指令的数量超过了一定的阈值数量。包括更多的指令的线程通常包括循环并且相应地与包括被执行多次的数据存取指令的线程相关。因此，线程内执行的指令的数量提供了关于该线程包括执行多次的数据存取指令的概率性指示。循环的执行也可以被直接检测，比如通过检测某些指令集内的特定循环指令。

检测对应于给定数据存取指令的多次执行的一个或多个特征的另一种方法是包括查找电路，查找电路被配置为检测给定数据存取指令的执行，例如，可以追踪识别出的数据存取指令的程序地址，以及由此识别这些数据存取指令的重复执行。提供这种查找电路的一种有效硬件方法是用布隆(Bloom)过滤器形式的电路。

在系统初始化(启动)时，短期运行策略作为默认被选择，短期运行策略假设给定数据存取指令不被重复执行。当检测到表示给定数据存取指令重复执行的一个或多个特征时，发生到长期运行策略的转换。

图5是示意性的示出了如上操作的流程图。在步骤18，处理等待直到新线程将要开始。在步骤20，短期运行预取策略被设置作为对于新线程的初始的默认策略。随后步骤22开始执行新线程。步骤24重复地试图检测长期运行线程的一个或多个特征。如果这样的特征被检测到，那么处理进行到步骤26，其中长期运行策略被选择以用于该新线程。

在其他实施例中，要采用的预取策略在任务(程序流)水平上比起在独个线程水平上被更好的控制。在某些实施例中，任务可有1000个线程，所有这些线程具有相同的初始程序计数器值。最好在较粗的任务水平上执行对预取策略的选择，以避免关于针对各线程运行错误策略的惩罚。相应地，在某些实施例中，控制预取策略选择的特征在任务水平上而非在线程水平被追踪。

虽然本发明的示例性实施例参考附图在本文中被详细表述，但是应当理解的是本发明不限定于这些明确的实施例，并且在不脱离由所附权利要求来限定的本发明的范围和精神的情况下，本领域技术人员可以在其中做各种有效的改变和修改。

Claims

1.一种处理数据的装置，该装置包括：

指令执行电路，指令执行电路被配置为并行执行程序执行的多个线程，所述多个线程中的每一个线程与一个程序指令流相对应；

预取电路，预取电路被配置为根据选定的预取策略从存储器的存储地址预取数据值，所述选定的预取策略是多个可选择的预取策略中的一个；以及

预取策略选择电路，预取策略选择电路被耦合到所述指令执行电路和所述预取电路，并被配置为：

(i)检测所述程序指令流的一个或多个特征，所述一个或多个特征表示程序内的给定数据存取指令将被执行多次的概率；以及

(ii)依据所述的一个或多个特征来从所述多个可选择的预取策略中选择所述选定的预取策略。

2.如权利要求1所述的装置，其中，所述多个线程中的每一个同步执行公共的程序指令序列。

3.如权利要求2所述的装置，其中，所述指令执行电路包括在所述多个线程之间共享的指令解码器电路。

4.如权利要求2所述的装置，其中，所述多个线程中的每一个线程执行而不会在所述多个线程之间有数据依赖。

5.如权利要求1所述的装置，其中，所述指令执行电路被配置为执行细粒度多线程处理。

6.如权利要求1所述的装置，其中，所述程序指令流有其中连续程序指令被依次执行的常规的向前执行顺序，并且所述一个或多个特征包括转到目标指令的向后分支指令的执行，所述目标指令就所述常规向前执行顺序而言位于所述向后分支指令之前。

7.如权利要求1所述的装置，其中，所述一个或多个特征包括程序循环的执行。

8.如权利要求1所述的装置，其中，所述程序指令流对应于给定线程，所述给定线程为多个程序指令线程中的一个，并且所述一个或多个特征包括所述给定线程包括在所述给定线程终止之前执行的大于阈值数量的程序指令。

9.如权利要求1所述的装置，其中，所述预取策略选择电路包括查找电路，查找电路被配置为检测所述给定数据存取指令在所述多个线程中一个线程内的重复执行。

10.在权利要求9所述的装置，其中，所述查找电路是布隆过滤器电路。

11.如权利要求1所述的装置，其中，所述多个可选择预取策略包括：

(i)短期运行策略，所述短期运行策略适用于当所述程序指令流不包含执行多次的给定数据存取指令时预测要被预取的数据值；以及

(ii)长期运行策略，所述长期运行策略适用于当所述程序指令流包含执行多次的给定数据存取指令时预测要被预取的数据值。

12.如权利要求11所述的装置，其中，所述预取策略选择电路被配置为选择所述短期运行策略作为默认策略，并当检测到所述一个或多个特征时转换为所述长期运行策略。

13.一种处理数据的装置，该装置包括：

(i)检测所述程序指令流的一个或多个特征，一个或多个特征表示程序内的给定数据存取指令将被执行多次的概率；以及

14.一种处理数据的方法，所述方法包括如下步骤：