CN112114877A

CN112114877A - 一种动态补偿线程束warp的方法、处理器及计算机存储介质

Info

Publication number: CN112114877A
Application number: CN202011043576.8A
Authority: CN
Inventors: 黄虎才; 李洋; 刘周平
Original assignee: Xi'an Xintong Semiconductor Technology Co ltd
Current assignee: Xi'an Xintong Semiconductor Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-22
Anticipated expiration: 2040-09-28
Also published as: CN112114877B

Abstract

本发明实施例公开了一种动态补偿线程束warp的方法、处理器及计算机存储介质；该方法可以包括：相应于检测到当前warp基于执行分支语句出现处于空闲状态的空闲线程，获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp；调度所述补偿warp进入执行状态并且调度所述当前warp中的空闲线程执行所述补偿warp。

Description

一种动态补偿线程束warp的方法、处理器及计算机存储介质

技术领域

本发明实施例涉及图形处理器（GPU，Graphics Processing Unit）技术领域，尤其涉及一种动态补偿线程束warp的方法、处理器及计算机存储介质。

背景技术

单指令多线程（SIMT，Single-Instruction-Mltiple-Thread）是目前一些GPU常规采用的并行执行模式，而线程组或线程束（warp）则是GPU中的一个基本调度单位。在执行一些特定的应用或者在某些特定的场景下，并非warp中所包含的所有线程均处于活跃状态，以if-else语块为例，当处理器中的一个warp在处理该条件分支语块的过程中，基于条件判断结果会得出两个分支代码，其中，该warp中所包括的部分线程（比如M个线程）会由于遵循“if”判断结果为真而被执行，从而处于活动状态；该warp中所包括的其他部分线程（比如K-M个线程，K表示一个warp所包含的所有线程数量）则会由于遵循“if”判断结果为假的“else”路径而被暂时禁用或屏蔽（等待中），从而处于空闲状态。此时，处于空闲状态的K-M个线程所对应的计算资源就会由于其所处的空闲状态而没有被使用，直至等待执行“else”路径时才会因为K-M个线程由空闲状态变更为活动状态而被使用。上述现象造成了计算资源的浪费。

发明内容

有鉴于此，本发明实施例期望提供一种动态补偿线程束warp的方法、处理器及计算机存储介质；能够充分利用空闲的执行资源，降低计算资源的浪费，提高GPU的性能。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供了一种处理器，所述处理器包括：管线控制器、所执行线程被组织成多个线程组warp的多个核心；其中，每个warp能够在多个核心中执行，每个核心同一个时刻对应一个线程的执行；

所述管线控制器，经配置为执行以下步骤：

相应于检测到当前warp基于执行分支语句出现处于空闲状态的空闲线程，获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp；

调度所述补偿warp进入执行状态并且调度所述当前warp中的空闲线程执行所述补偿warp。

第二方面，本发明实施例提供了一种动态补偿线程束warp的方法，所述方法包括：

第三方面，本发明实施例提供了一种计算机存储介质、所述计算机存储介质存储有动态补偿线程束warp的程序，所述动态补偿线程束warp的程序被至少一个处理器执行时实现第二方面所述的动态补偿线程束warp的方法的步骤。

本发明实施例提供了一种动态补偿线程束warp的方法、处理器及计算机存储介质；在当前warp中的空闲线程处于空闲状态的时间段内，将补偿warp调度至空闲线程以执行，从而在并行执行分支语句的过程中，对空闲状态的线程进行填充利用，充分地利用了这部分线程所对应的计算资源，以此达到计算资源更高的利用率。

附图说明

图1为本发明实施例提供的一种处理器的组成示意图。

图2为本发明实施例提供的一种基于时序的warp补偿示意图。

图3为本发明实施例提供的另一种基于时序的warp动态补偿示意图。

图4为本发明实施例提供的一种动态补偿线程束warp的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参见图1，其示出了能够实现本发明实施例技术方案的一种适用于SIMT执行模式的处理器100示意图，在一些示例中，该处理器100能够作为GPU实现高度并行计算的处理器集群阵列中的通用处理集群的一个，以实现并行地执行大量的线程，其中每个线程是程序的实例（instance）。在另一些示例中，该处理器100可以被实现为GPU中的流多处理器（SM，Streaming Multiprocessors）。在该处理器100中，可以包括被组织成warp的多个线程处理器或被称之为核心，每个核心同一个时刻对应一个线程的执行。在一些示例中，相应于处理器100被实现为SM，核心可以被实现为流处理器（SP，Streaming Processor）。该处理器100可以包含J个warp 104-1到104-J，每个warp具有K个核心106-1到106K。在一些示例中，warp104-1到104-J可以进一步地被组织成一个或多个线程块（block）102。在一些示例中，每个warp可具有32个核心；在其他示例中，每个warp可具有4个核心、8个核心、16个核心、或者多如数万个核心；如图1所示，本发明实施例以设定每个warp具有8个核心（即K=8）为例进行技术方案阐述，可以理解地，上述设定仅用于技术方案说明，并非对技术方案的保护范围进行限制，本领域技术人员可以很容易地将基于上述设定所阐述的技术方案适用于其他情况，在此不作赘述。在某些可替代的示例中，该处理器100可将核心仅组织成warp，省略线程块block的组织级别。

进一步来说，处理器100还可以包括管线控制器108、共享存储器110、以及与warp104-1到104-J相关联的本地存储器112-1到112-J的阵列。管线控制器108通过数据总线114将任务分布到各个warp 104-1到104-J 。管线控制器108创建、管理、调度、执行并提供机制以将warp 104-1 到104-J同步。继续参见图1所示的处理器100，warp 内的核心相互并行地执行。warp 104-1到104-J通过存储器总线116与共享存储器110进行通信。warp 104-1到104-J通过本地总线118-1到118-J分别与本地存储器112-1到112-J进行通信。例如图1中所示，warp 104-J 以通过本地总线118-J进行通信来利用本地存储器112-J。处理器100 的某些实施例将共享存储器110的共享部分分配到每个线程块102，并允许由线程块102内的所有warp访问共享存储器110的共享部分。某些实施例包括仅使用本地存储器的warp。许多其他实施例包括平衡本地存储器和共享存储器110的使用的warp。

对于图1所示的处理器100，在实际执行并行处理的过程中，单个warp的宽度（也可被称为warp所包含的线程数或核心的数目）通常是固定的。以K=8为例，根据目前并行处理方案执行分支语句的情况示意如图2所示，在图3中，纵向以顺序的处理周期表征时间顺序，各相邻的时刻点之间均相差一个处理周期cycle。由图中可以看出，从cycle-n至cycle-n+3的第一时间段以及从cycle-n+4至cycle-n+7的第二时间段分别对应着分支语句两个代码区域，warp中所包括的8个线程分别标记为T0、T1、T2、T3、T4、T5、T6和T7。在图2中，未被填充的线程表示其处于活跃状态或活动状态，也可被称之为活跃线程或活动线程；被交叉线填充的线程表示其处于屏蔽状态或空闲状态，也可称之为屏蔽线程或空闲线程。对于处于屏蔽状态的线程来说，通常会执行空操作、或者不执行任何操作，这就意味着一个warp执行分支语句过程中，处于屏蔽状态的线程有部分时间可以认为是无效的，其对应的计算资源是被浪费掉的从图2中可以看出，在执行分支语句的过程中，一个warp的线程利用率平均仅有50%，极大地浪费了计算资源。

为了避免上述情况的发生，提高GPU的并行执行性能，本发明实施例期望能够在并行执行分支语句的过程中，对空闲状态的线程进行填充利用，以便能够将这部分线程所对应的计算资源充分利用起来，以此达到计算资源更高的利用率。基于此，本发明实施例期望能够在一个warp执行分支语句的过程中，对warp中的空闲状态线程进行填充，因此，对于图1所示的处理器100，在一些示例中，管线控制器108经配置为执行：相应于检测到当前warp基于执行分支语句出现处于空闲状态的空闲线程，获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp；调度所述补偿warp进入执行状态并且调度所述当前warp中的空闲线程执行所述补偿warp。

通过上述示例，在当前warp中的空闲线程处于空闲状态的时间段内，将补偿warp调度至空闲线程以执行，从而在并行执行分支语句的过程中，对空闲状态的线程进行填充利用，充分地利用了这部分线程所对应的计算资源，以此达到计算资源更高的利用率。

基于上述示例，在一些可能的实现方式中，管线控制器108通常优先从warp队列中进行选择，以获得补偿warp。因此，管线控制器108，经配置为：从当前尚未执行的warp队列中选择warp宽度与所述空闲线程数目相同的目标warp；将选择出的所述目标warp作为所述补偿warp。对于该实现方式，具体来说，作为GPU实现并行执行的基本调度单位，warp宽度对并行执行的性能和效果影响极大，warp宽度通常表示一个warp所包含的线程数目，假定一个warp的宽度为n，则基于该宽度，该warp可以被表示为warp-n。由于warp队列中的warp宽度并不确定，且通常情况下，并不能保证在warp队列中找到宽度恰好与所述空闲线程数目相同的warp，也就是说，在warp队列中可能不存在这样的目标warp。

基于以上阐述，在无法从warp队列中找到目标warp的情况下，就可以根据所述空闲线程生成相应的满足所述空闲线程数目的warp作为补偿warp；当然，从warp队列中找到目标warp并非是必须的前置条件。在一些可能的实现方式中，管线控制器108，经配置为：按照所述空闲线程数目从任务队列中选择屏蔽了设定数目线程的warp作为所述补偿warp。具体来说，由于空闲线程数目的限制，当无法找到相应宽度的warp之后，还可以根据任务队列中已屏蔽的warp来选择补偿warp。举例来说，当前warp在执行分支语句过程中屏蔽了N个线程，即空闲线程数目为N；在任务队列中，在一个warp屏蔽了设定数目线程后，剩余的非屏蔽线程数目不超过N的情况下，就可以将该warp的非屏蔽线程调度进入执行状态并且由当前warp的空闲线程进行执行。在本发明实施例中，该warp的非屏蔽线程可以被称之为补偿线程，相应来说，该warp也就可被称为补偿warp。对于宽度小于8的warp来说，可以支持8种宽度的warp作为补偿warp，即warp-1至warp-8。

基于上述实现方式，在当前warp执行分支语句完毕之后，在一些实施例中，管线控制器108，经配置为：将warp队列中尚未执行的warp调度至所述当前warp继续执行；以及，在当前warp继续执行过程中，相应于所述当前warp执行分支语句而出现新的空闲线程，获取用于在所述新的空闲线程处于空闲状态期间填充所述新的空闲线程的新的补偿warp；调度所述新的补偿warp进入执行状态并且调度所述当前warp中所述新的空闲线程执行所述新的补偿warp。

针对上述实施例，对于继续执行过程中所出现的新的空闲线程，优选地，管线控制器108，可以根据所述新的空闲线程数目从当前已有且尚未执行结束的补偿warp队列中查找匹配warp，并将查找得到所述匹配warp作为新的补偿warp。但是进一步地，若此时没有空余的补偿warp，或者在补偿warp队列中无法找到匹配warp，那么，管线控制器108，还可以经配置为：根据所述新的空闲线程数目从线程中创建补偿warp，并将创建所得到的补偿warp调入所述新的空闲线程以执行。

此外，在本发明实施例中，在通过补偿warp填充当前warp的空闲线程执行之后，若当前warp执行分支语句结束，但补偿warp尚未执行完成，则此时管线控制器108可以根据所述补偿warp的宽度以及当前warp的宽度确定继续执行的warp，并调度当前warp中除补偿warp以外的其他线程以执行所述继续执行的warp。举例来说，当前warp宽度为8，由于执行分支语句出现了4个空闲线程，此时根据本发明实施例上述内容确定活跃线程不超过4的warp作为补偿warp，并且会从4个空闲线程中按照该补偿warp的宽度调度空闲线程以执行该补偿warp；若当前warp执行分支语句结束，但补偿warp的任务尚未执行结束，设定补偿warp的宽度为3，则当前warp中会出现5个线程没有任务执行，此时，可以按照宽度由宽到窄的顺序选择所述继续执行的warp，也就是说，为了能够更加充分的利用资源，应当优先选择宽度为5的warp作为继续执行的warp。

对于上述技术方案，本发明实施例通过以下具体示例对其实现过程进行阐述，在本具体示例中，设定当前warp宽度为8，分支语句为嵌套分支，也就是说会出现三个代码区域，如图3所示，纵向以顺序的处理周期表征时间顺序，各相邻的时刻点之间均相差一个处理周期cycle。由图中可以看出，从cycle-n至cycle-n+3的第一时间段对应于分支语句的第一代码区域，从cycle-n+4和cycle-n+5的第二时间段对应于分支语句的嵌套分支部分，可以认为是第二代码区域；从cycle-n+6至cycle-n+9的第三时间段对应于分支语句的第三代码区域。warp中所包括的8个线程分别标记为T0、T1、T2、T3、T4、T5、T6和T7。以未被填充的线程表示为活跃线程或活动线程；被交叉线填充的线程表示为屏蔽线程或空闲线程，从图3中可以看出，当前warp在执行第一代码区域期间，活跃线程分别为T0、T1、T3、T6和T7；而空闲线程为T2、T4和T5，空闲线程数目为3；所以，在执行第一代码区域期间，需要对上述三个空闲线程进行填充，也就是说，在该期间，补偿warp的宽度为3。当前warp在执行第二代码区域期间，活跃线程分别为T0、T6和T7；而空闲线程为T1、T2、T3、T4和T5，空闲线程数目为5；所以，在执行第二代码区域期间，需要对上述五个空闲线程进行填充，也就是说，在该期间，补偿warp的宽度为5。当前warp在执行第三代码区域期间，活跃线程分别为T2、T4和T5；而空闲线程为T0、T1、T3、T6和T7，空闲线程数目为5；所以，在执行第三代码区域期间，需要对上述五个空闲线程进行填充，也就是说，在该期间，补偿warp的宽度仍旧为5。尽管在执行第二代码区域期间和执行第三代码区域期间都需要对五个空闲线程进行填充，但是具体填充的线程是有差异的，所以，管线控制器108在调度所述当前warp中的空闲线程执行所述补偿warp过程中，需要为每个线程的线程标识对应设置执行单元标识，也就是图1中的核心标识，以区分不同线程对应的执行单元，即核心。经过执行单元标识的对应设置，可以看出，在执行第二代码区域期间，5个空闲线程在执行单元层面是连续的；而在执行第三代码区域期间，5个空闲线程在执行单元层面是不连续的。因此，可以在执行第三代码区域期间，对于被调入执行的空闲线程所对应的执行单元进行重新排列。

需要说明的是，对于补偿warp中若再次发生条件分支，可以按照前述内容中针对当前warp的方案进行继续填充调度；同样也可以基于控制逻辑实现的复杂性和所带来的能效比这些方面的考虑，不再对补偿warp进行继续填充调度。本发明实施例对此不作具体限定。

基于前述技术方案相同的发明构思，参见图4，其示出了本发明实施例提供的一种动态补偿线程束warp的方法，该方法可以应用于图1所示的处理器100中，所述方法可以包括：

S401：相应于检测到当前warp基于执行分支语句出现处于空闲状态的空闲线程，获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp；

S402：调度所述补偿warp进入执行状态并且调度所述当前warp中的空闲线程执行所述补偿warp。

对于图4所示的技术方案，在一些示例中，所述获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp，包括：

从当前尚未执行的warp队列中选择warp宽度与所述空闲线程数目相同的目标warp；将选择出的所述目标warp作为所述补偿warp。

按照所述空闲线程数目从任务队列中选择屏蔽了设定数目线程的warp作为所述补偿warp。

对于图4所示的技术方案，在一些示例中，所述方法还包括：在当前warp执行分支语句完毕之后，将warp队列中尚未执行的warp调度至所述当前warp继续执行；

在当前warp继续执行过程中，相应于所述当前warp执行分支语句而出现新的空闲线程，获取用于在所述新的空闲线程处于空闲状态期间填充所述新的空闲线程的新的补偿warp；

调度所述新的补偿warp进入执行状态并且调度所述当前warp中所述新的空闲线程执行所述新的补偿warp。

基于上述示例，所述获取用于在所述新的空闲线程处于空闲状态期间填充所述新的空闲线程的新的补偿warp，包括：

根据所述新的空闲线程数目从当前已有且尚未执行结束的补偿warp队列中查找匹配warp，并将查找得到所述匹配warp作为所述新的补偿warp。

对于图4所示的技术方案，在一些示例中，所述方法还包括：若当前warp执行分支语句结束，但补偿warp尚未执行完成，则根据所述补偿warp的宽度以及当前warp的宽度确定继续执行的warp，并调度当前warp中除补偿warp以外的其他线程以执行所述继续执行的warp。

需要说明的是，上述图4所示的技术方案及其示例均可以结合前述技术方案中针对处理器100，或者管线控制器108的阐述以实现，本发明实施例不多做赘述。

可以理解地，图4所示的技术方案及其示例既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，图4所示的技术方案及其示例本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或processor（处理器）执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM， ReadOnly Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，所述计算机存储介质存储有动态补偿线程束warp的程序，所述动态补偿线程束warp的程序被至少一个处理器执行时实现上述技术方案中所述动态补偿线程束warp的方法步骤。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种处理器，其特征在于，所述处理器包括：管线控制器、所执行线程被组织成多个线程组warp的多个核心；其中，每个warp能够在多个核心中执行，每个核心同一个时刻对应一个线程的执行；

所述管线控制器，经配置为执行以下步骤：

2.根据权利要求1所述的处理器，其特征在于，所述管线控制器，经配置以执行：

3.根据权利要求1所述的处理器，其特征在于，所述管线控制器，经配置以执行：

4.根据权利要求1所述的处理器，其特征在于，所述管线控制器，还经配置以执行：

将warp队列中尚未执行的warp调度至所述当前warp继续执行；

5.根据权利要求4所述的处理器，其特征在于，所述管线控制器，还经配置以执行：

若继续执行过程中所出现的新的空闲线程，根据所述新的空闲线程数目从当前已有且尚未执行结束的补偿warp队列中查找匹配warp，并将查找得到所述匹配warp作为新的补偿warp。

6.根据权利要求1所述的处理器，其特征在于，所述管线控制器，还经配置以执行：

若当前warp执行分支语句结束，但补偿warp尚未执行完成，则根据所述补偿warp的宽度以及所述当前warp的宽度确定继续执行的warp，并调度当前warp中除补偿warp以外的其他线程以执行所述继续执行的warp。

7.一种动态补偿线程束warp的方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp，包括：

9.根据权利要求7所述的方法，其特征在于，所述获取用于在所述空闲线程处于空闲状态期间填充所述空闲线程的补偿warp，包括：

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：在当前warp执行分支语句完毕之后，将warp队列中尚未执行的warp调度至所述当前warp继续执行；

11.根据权利要求10所述的方法，其特征在于，所述获取用于在所述新的空闲线程处于空闲状态期间填充所述新的空闲线程的新的补偿warp，包括：

12.根据权利要求7所述的方法，其特征在于，所述方法还包括：

若当前warp执行分支语句结束，但补偿warp尚未执行完成，则根据所述补偿warp的宽度以及当前warp的宽度确定继续执行的warp，并调度当前warp中除补偿warp以外的其他线程以执行所述继续执行的warp。

13.一种计算机存储介质、其特征在于，所述计算机存储介质存储有动态补偿线程束warp的程序，所述动态补偿线程束warp的程序被至少一个处理器执行时实现权利要求7至12任一项所述的动态补偿线程束warp的方法的步骤。