CN115904510B

CN115904510B - 多操作数指令的处理方法、图形处理器及存储介质

Info

Publication number: CN115904510B
Application number: CN202310113499.6A
Authority: CN
Inventors: 阙恒; 周义满; 朱康挺; 李龙
Original assignee: Li Computing Technology Shanghai Co ltd; Nanjing Lisuan Technology Co ltd
Current assignee: Li Computing Technology Shanghai Co ltd; Nanjing Lisuan Technology Co ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-05-09
Anticipated expiration: 2043-02-15
Also published as: CN115904510A

Abstract

本发明公开了一种多操作数指令的处理方法、图形处理器及存储介质，涉及图像处理技术领域。该方法由图形处理器执行，包括：获取存在操作数读取需求的目标线程和目标指令，并根据目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组，根据目标指令，从至少一个目标寄存器组中读取目标数据；根据目标指令，从流水线组件中获取目标操作数抓取模块，并通过目标操作数抓取模块抓取目标数据。本发明实施例的技术方案，避免了GPU处理多操作数指令时对寄存器的读取冲突，提高了GPU的操作数读取效率；同时各个目标寄存器组中读取的操作数，可以满足指令执行器中不同目标操作数抓取模块的同时处理需求，提高了GPU的操作数计算效率。

Description

多操作数指令的处理方法、图形处理器及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种多操作数指令的处理方法、图形处理器及存储介质。

背景技术

随着图形显示渲染应用场景的复杂化，为了提高图形处理器（graphicsprocessing unit，GPU）的运行效率，编译器使用多操作数指令的场景也越来越多，以使GPU以较少数量指令执行更多计算任务。

以三操作数指令为例，GPU执行指令时往往存在寄存器的读取冲突，进而降低GPU的运行效率，为了解决该问题，一种方式是将寄存器的运行频率提高到指令执行器执行频率的两倍，使得指令调度器可以在两个时钟周期内读取四次寄存器，从而满足执行执行器对三操作数的抓取需求；另一种方式，是指令执行器以动态流水线的方式执行，指令调度器相应的通过多个时钟周期读取寄存器，一旦遇到读取冲突，就延时到之后的空闲时钟周期读取。

在实践过程中，发现现有技术存在如下缺陷：方式一中由于寄存器的运行频率往往达不到上述要求，导致反向降低了指令执行器的执行频率，进而降低了GPU的运行效率；方式二中不但增加了指令执行器的结构复杂度，带来了过多的额外判断逻辑和额外电路开销，同时可能会将指令执行时间无限拉长，进而导致指令的响应延迟。

发明内容

本发明提供了一种多操作数指令的处理方法、装置、电子设备及存储介质，以解决GPU执行多操作数指令时，对寄存器的读取冲突问题。

根据本发明的一方面，提供了一种多操作数指令的处理方法，由图形处理器执行，包括：

获取存在操作数读取需求的目标线程和目标指令，并根据所述目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组；其中，所述寄存器组集合包括至少四个寄存器组；各所述寄存器组的操作数读取接口均不相同；

根据所述目标指令，从所述至少一个目标寄存器组中读取目标数据；

根据所述目标指令，从流水线组件中获取目标操作数抓取模块，并通过所述目标操作数抓取模块抓取所述目标数据；其中，所述流水线组件包括至少三个操作数抓取模块；所述目标操作数抓取模块与所述目标寄存器组一一匹配。

根据本发明的另一方面，提供了一种图形处理器，所述图形处理器包括指令调度器和指令执行器，所述指令调度器包括寄存器组获取模块和目标数据读取模块；

所述寄存器组获取模块，用于获取存在操作数读取需求的目标线程和目标指令，并根据所述目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组；其中，所述寄存器组集合包括至少四个寄存器组；各所述寄存器组的操作数读取接口均不相同；

所述目标数据读取模块，用于根据所述目标指令，从所述至少一个目标寄存器组中读取目标数据；

所述指令执行器，用于根据所述目标指令，从流水线组件中获取目标操作数抓取模块，并通过所述目标操作数抓取模块抓取所述目标数据；其中，所述流水线组件包括至少三个操作数抓取模块；所述目标操作数抓取模块与所述目标寄存器组一一匹配。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个图形处理器；以及

与所述至少一个图形处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个图形处理器执行的计算机程序，所述计算机程序被所述至少一个图形处理器执行，以使所述至少一个图形处理器能够执行本发明任一实施例所述的多操作数指令的处理方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的多操作数指令的处理方法。

本发明的技术方案中，图形处理器中的指令调度器，在根据存在操作数读取需求的目标线程和目标指令，从寄存器组集合中确定匹配的至少一个目标寄存器组之后，通过目标寄存器组读取目标数据，避免了GPU处理多操作数指令时对寄存器的读取冲突，提高了GPU的操作数读取效率；而图形处理中的指令执行器，则根据目标指令从流水线组件中获取目标操作数抓取模块，并通过目标操作数抓取模块抓取指令调度器读取到的目标数据，由此各个目标寄存器组中读取的操作数，可以满足指令执行器中不同目标操作数抓取模块的同时处理需求，提高了GPU的操作数计算效率；同时，由于未涉及寄存器运行频率的变更，因此不会在寄存器的运行频率无法满足需求时，出现反向降低指令执行器的运行频率的现象，另外，也未给指令执行器的流水线组件带来过多的额外判断逻辑和额外电路开销，避免了指令执行时间被拉长导致出现响应延迟现象。

应当理解，本部分所描述的内容并非旨在标识本发明的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是根据本发明实施例一提供的一种多操作数指令的处理方法的流程图；

图1B是根据本发明实施例一提供的指令执行器的流水线组件的结构示意图；

图1C是根据本发明实施例一提供的指令执行器的流水线组件的指令执行流程图；

图2A是根据本发明实施例二提供的一种多操作数指令的处理方法的流程图；

图2B是根据本发明实施例二提供的一种寄存器组的结构示意图；

图3是根据本发明实施例三提供的一种多操作数指令的处理方法的流程图；

图4是根据本发明实施例四提供的一种图形处理器的结构示意图；

图5是实现本发明实施例的多操作数指令的处理方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1A为本发明实施例一提供的一种多操作数指令的处理方法的流程图，本实施例可适用于同时处理多个多操作数指令的场景，该方法可以由图形处理器执行。如图1A所示，该方法包括：

S101、获取存在操作数读取需求的目标线程和目标指令，并根据所述目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组；其中，所述寄存器组集合包括至少四个寄存器组；各所述寄存器组的操作数读取接口均不相同。

指令调度器（SCH）是GPU中用于控制操作数指令发出以及操作数读取的调度；指令调度器内部包括多个线程槽，每个线程槽中仅可同时唤醒一个线程；目标线程是在当前时钟周期内发出指令，或者在当前时钟周期内存在处理中指令的线程；其中，处理中指令是指操作数未被完全读取的指令；例如，在当前时钟周期，获取到了三个线程发出的新指令，还有两个线程在过去的时钟周期发出了指令，但上述两个线程发出指令中的操作数未被全部读取完成，那么上述五个线程均被视为存在操作数读取需求的目标线程；而每个线程在发出一条指令后，在该指令的操作数读取完成之前，不会再发出后续指令，因此，每个目标线程在一个时钟周期内有且仅有一条指令，因此，目标线程中的指令即为目标指令。

寄存器（Register）是GPU中的数据存储装置，在本发明实施例中，寄存器可以包括通用寄存器（General-Purpose Register，GPR）和向量寄存器等；由于GPU获取到的操作数指令中的操作数，存储于寄存器中，因此指令调度器需要通过操作数读取接口，从寄存器中读取相关数据，寄存器组由多个寄存器共同组成，而寄存器组集合则由四个或四个以上的寄存器组成。

GPU在执行图像处理时，操作数指令中的操作数通常为向量操作数，即以向量形式表示图像特征，每个向量中包括2的整数倍数量的元素；例如，每个向量操作数中包括32个元素；寄存器的存储机制，是将低位数据和高位数据存储于不同的区域，因此，所有寄存器的低位数据和高位数据，可以组成两个不同的数据存储区域，即两个寄存器组；但显然上述两个寄存器组，仍然不能满足三个或三个以上操作数抓取模块的同时抓取需求，因此，在本发明实施例中，可以对寄存器再次进行分组；

以GPU包括32个通用寄存器，即r0至r31为例，可以每8个通用寄存器划分为一个寄存器组，由此生成四个寄存器组，而每组寄存器中低位数据区域和高位数据区域又可以形成两个不同的寄存器组，那么由此总共可以获取到8个寄存器组，每个寄存器组由8个通用寄存器中的高位数据区域或者低位数据区域组成，不同的寄存器组配置不同的操作数读取接口，可以满足最多8组数据的同时读取。根据线程与寄存器组的对应关系，根据获取到的目标线程，即可确定待读取操作数所在的寄存器组，即目标寄存器组。

S102、根据所述目标指令，从所述至少一个目标寄存器组中读取目标数据。

在确定目标寄存器组之后，根据目标线程中目标指令的操作数，即可确定目标数据所在的寄存器；以上述技术方案为例，在确定目标寄存器组为r0至r7的低位数据寄存器组之后，若目标指令中的操作数为r0，可以确定具体的寄存器为r0，即从r0至r7的低位数据寄存器组的r0中读取低位数据。

S103、根据所述目标指令，从流水线组件中获取目标操作数抓取模块，并通过所述目标操作数抓取模块抓取所述目标数据；其中，所述流水线组件包括至少三个操作数抓取模块；所述目标操作数抓取模块与所述目标寄存器组一一匹配。

指令执行器是GPU中，用于获取指令调度器发出的目标指令，抓取指令调度器发出的目标数据，以及对该目标数据进行数据处理的功能单元，其包括由各自独立运行且执行不同功能的模块共同组成的流水件组件，以通过流水线的方式处理接收到的各个指令；指令调度器在将目标指令发送给指令执行器时，也会将从目标寄存器组中读取的目标数据发送给指令执行器；其中，流水线组件中位于前端的N个（N是大于等于3的自然数）功能模块用于目标数据的抓取，N的数值由GPU执行的指令中操作数的最大数量决定，如果GPU需要执行的指令中最多包括N个操作数（即处理N操作数指令），那么该指令执行器的流水线组件即包括N个操作数抓取模块，指令执行器的流水线组件配置完成后即保持不变。

以图1B为例，指令执行器执行的操作数指令中最多包括三个操作数，其流水线组件由12个功能模块组成，其中前三个功能模块用于操作数的抓取，即位于阶段（stage）0的抓取模块0（即用于抓取第一操作数的模块）；位于阶段（stage）1的抓取模块1（即用于抓取第二操作数的模块）；位于阶段（stage）2的抓取模块2（即用于抓取第三操作数的模块）；后九个功能模块用于操作数的数据组织、计算及结果获取，即位于阶段4用于数据组织的组织模块、位于阶段5至阶段10用于执行数据计算的计算模块0至计算模块6，以及位于阶段11的用于获取结果的结果模块。

可选的，在本发明实施例中，在获取存在操作数读取需求的目标线程之前，包括：将各个线程分配至不同的线程组；其中，各所述线程组分别与不同的两个寄存器组相匹配；所述获取存在操作数读取需求的目标线程，具体包括：分别从各所述线程组中，遍历获取存在操作数读取需求的目标线程。

具体的，指令调度器将不同的线程进行分组后，每个线程组与两个寄存器组相匹配，且各个线程组之间分别匹配不同的寄存器组；而与每个线程组相匹配的两个寄存器组中，一个为存储高位数据的高位寄存器组，一个为存储低位数据的低位寄存器组，以上述技术方案为例，将通用寄存器r0至r7中存储低位数据的区域，组成寄存器组A1，将通用寄存器r0至r7中存储高位数据的区域，组成寄存器组A2，将线程组A与寄存器组A1和寄存器组A2相匹配，显然，线程组A中发出的指令，不但可以通过上述两个寄存器组获取到完整数据（即高位数据+低位数据），且与其它寄存器组并未使用相同的操作数读取接口，因此，在当前时钟周期内，不同线程组遍历获取的目标指令中，操作数必定来自于不同的寄存器组，也就通过不同的操作数读取接口进行读取，有效的避免了操作数读取冲突的现象发生。

可选的，在本发明实施例中，在将各个线程分配至不同的线程组之后，还包括：将预设数量时钟周期作为指令间隔时间，以使各所述线程组基于所述指令间隔时间轮流发出指令。指令调度器将预设数量时钟周期，作为不同线程组轮流发出指令的时间间隔，由此既可以确保对指令执行器中各个操作数抓取模块的充分利用，提高GPU的数据处理效率，同时，又可以避免由于指令堆积导致出现指令丢失现象，确保了GPU中数据计算结果的准确。

以图1C用于处理三操作数指令的指令执行器为例，其包括三个操作数抓取模块，线程组数量为两个，即线程0（即“th0”）所在的线程组A，以及线程1和线程3所在的线程组B，预设数量时钟周期为两个时钟周期；线程0在第0时钟周期发出指令A：“MAD r3, r2, r1,r0”；其中，“MAD”表示将第一操作数（即r0，也即通用寄存器0）与第二操作数（即r1，也即通用寄存器1）相乘，相乘结果再与第三操作数（即r2，也即通用寄存器2）相加，相加结果存放于指定位置（即r3，也即通用寄存器3）中。

在第0时钟周期，目标线程为线程0，目标指令为指令A，指令调度器从目标寄存器组，即通用寄存器r0至r7中存储低位数据的寄存器组A1中，读取r0寄存器的低位数据；指令调度器将指令A和r0寄存器的低位数据发送给指令执行器；指令执行器通过一个目标操作数抓取模块，即第一操作数抓取模块抓取上述r0寄存器的低位数据。

在第1时钟周期，目标线程为线程0，目标指令为指令A，指令调度器从两个目标寄存器组，即通用寄存器r0至r7中存储高位数据的寄存器组A2中，读取r0寄存器的高位数据，以及通用寄存器r0至r7中存储低位数据的寄存器组A1中，读取r1寄存器的低位数据；指令调度器将指令A、r0寄存器的低位数据以及r1寄存器的低位数据，发送给指令执行器；指令执行器通过两个目标操作数抓取模块，即第一操作数抓取模块抓取上述r0寄存器的高位数据，以及第二操作数抓取模块抓取上述r1寄存器的低位数据。

在第2时钟周期，目标线程为线程0和线程1，目标指令为指令A和指令B，指令调度器从三个目标寄存器组，即通用寄存器r0至r7中存储高位数据的寄存器组A2中，读取r1寄存器的高位数据，通用寄存器r0至r7中存储低位数据的寄存器组A1中，读取r2寄存器的低位数据，以及通用寄存器r8-r15中存储低位数据的寄存器组B1中，读取某个寄存器（例如，r8）的低位数据；指令调度器将指令A、r1寄存器的高位数据、r2寄存器的低位数据、指令B以及r8的低位数据，发送给指令执行器；指令执行器通过三个目标操作数抓取模块，即第一操作数抓取模块抓取上述r8寄存器的低位数据，第二操作数抓取模块抓取上述r1寄存器的高位数据，第三操作数抓取模块抓取上述r2寄存器的低位数据。

在第3时钟周期，目标线程为线程0和线程1，目标指令为指令A和指令B，指令调度器从三个目标寄存器组，即通用寄存器r0至r7中存储高位数据的寄存器组A2中，读取r2寄存器的高位数据，通用寄存器r8-r15中存储高位数据的寄存器组B2中，读取r8的高位数据，通用寄存器r8-r15中存储低位数据的寄存器组B1中，读取某个寄存器（例如，r9）的低位数据；指令调度器将指令A、r2寄存器的高位数据、指令B、r8寄存器的高位数据以及r9寄存器的低位数据，发送给指令执行器；指令执行器通过三个目标操作数抓取模块，即第一操作数抓取模块抓取上述r8寄存器的高位数据，第二操作数抓取模块抓取上述r9寄存器的低位数据，第三操作数抓取模块抓取上述r2寄存器的高位数据；显然，在第3时钟周期时，已完成指令A的全部操作数抓取。

在第4时钟周期时，由于指令B的第一操作数已读取完毕，此时第一操作数抓取模块为空闲状态，线程0在第4时钟周期发出指令C：“MAD r7, r6, r5, r4”，指令执行器恰好可以通过第一操作数抓取模块开始执行指令C中第一操作数的抓取，因此，指令间隔时间的设定，使得指令调度器中既不存在指令堆积现象，同时又充分利用了指令执行器中各个操作数抓取模块，避免了空闲操作数抓取模块的存在，降低GPU的运行效率。

如上述技术方案所述，当目标操作数抓取模块的数量等于一个时，显然不存在操作数读取冲突；当目标操作数抓取模块的数量大于等于两个时，在同一个时钟周期内，指令调度器从不同的目标寄存器组中读取操作数，由于不同的寄存器组之间对应不同的操作数读取接口，因此，上述技术方案不但可以使各个目标操作数抓取模块同时执行数据抓取操作，还解决了不同寄存器组之间的读取冲突问题。

本发明的技术方案中，图形处理器中的指令调度器，在根据存在操作数读取需求的目标线程和目标指令，从寄存器组集合中确定匹配的至少一个目标寄存器组之后，通过目标寄存器组读取目标数据，避免了GPU处理多操作数指令时对寄存器的读取冲突，提高了GPU的操作数读取效率；而图形处理中的指令执行器，则根据目标指令从流水线组件中获取目标操作数抓取模块，并通过目标操作数抓取模块抓取指令调度器读取到的目标数据，由此各个目标寄存器组中读取的操作数，可以满足指令执行器中不同目标操作数抓取模块的同时处理需求，提高了GPU的操作数计算效率；同时，由于未涉及寄存器运行频率的变更，因此不会在寄存器的运行频率无法满足需求时，反向降低指令执行器的运行频率，另外，也未给指令执行器的流水线组件带来过多的额外判断逻辑和额外电路开销，避免了指令执行时间被拉长导致出现响应延迟现象。

实施例二

图2A为本发明实施例二提供的一种多操作数指令的处理方法的流程图，本实施例与上述实施例之间的关系在于，针对三操作数指令，在指令执行器的流水线组件中配置三个操作数抓取模块，同时通过指令调度器配置两个线程组、两个存储高位数据的寄存器组以及两个存储低位数据的寄存器组。如图2A所示，该方法包括：

S201、基于线程编号将各个线程分配至奇数编号线程组或者偶数编号线程组。

由于三操作数指令既未显著增加指令复杂度，使得GPU不需要花费过长时间进行指令解析，又可以提高GPU对图像特征向量的处理速度，因此，在现有的多操作数指令技术中，GPU通常仅会涉及三操作数指令的处理；因此，在向指令调度器发出线程分组请求后，指令调度器根据线程编号的奇偶性，将各个线程分成两个线程组，即奇数编号线程组和偶数编号线程组，从每个线程组中各自遍历获取一个线程，即可满足三个操作数抓取模块的同时作业需求，避免了空闲操作数抓取模块的存在降低了GPU的运算效率，同时，减少了线程的分组数量，降低了线程的管理复杂度。

以图1C为例，除了在第0个时钟周期和第1个时钟周期内，由于第一操作数抓取模块被线程0发出的指令A占据，导致其它指令的第一操作数无法抓取之外，第2时钟周期至第5时钟周期内，两个线程组中各自遍历获取的一个线程（即线程0和线程1）发出的指令，即可填满三个操作数抓取模块，不会出现空闲操作数抓取模块；而在第6时钟周期和第7时钟周期内，同样是从两个线程组中各自遍历获取的一个线程（即线程0和线程3）发出的指令，也可填满三个操作数抓取模块。

S202、将各个寄存器分配至第一寄存器组或者第二寄存器组；其中，所述第一寄存器组包括第一低位寄存器组和第一高位寄存器组，所述第二寄存器组包括第二低位寄存器组和第二高位寄存器组，所述第一寄存器组用于存储所述奇数编号线程组所需的操作数，所述第二寄存器组用于存储所述偶数编号线程组所需的操作数。

如图2B所示，CPU中包括32个通用寄存器，即r0至r31；可以将r16至r31作为第一寄存器组，将r0至r15作为第二寄存器组；将r16至r31存储低位数据的区域，作为第一低位寄存器组，将r16至r31存储高位数据的区域，作为第一高位寄存器组；将r0至r15存储低位数据的区域，作为第二低位寄存器组，将r0至r15存储高位数据的区域，作为第二高位寄存器组。

对于三操作数指令而言，两个低位数据寄存器组和两个高位数据寄存器组的设置，即可满足指令调度器在不同操作数读取接口中同时读取三个目标数据，避免了寄存器组之间存在的读取冲突，提高了GPU的运算效率，同时，减少了寄存器的分组数量，降低的操作数读取接口的维护难度，也降低了寄存器的管理复杂度。

同样的，以图1C为例，在第0时钟周期，通过指令调度器从通用寄存器r0的低位数据区域（即“l”），读取指令A的第一操作数的低位数据（即从第二低位寄存器组中读取）；指令执行器的第一操作数抓取模块，抓取指令调度器发送的上述r0的低位数据；同时，由于第一操作数抓取模块已被占用，显然，不能在当前时钟周期，再通过第一操作数抓取模块读取指令A的第一操作数的高位数据；另外，由于第一操作数并未抓取完成，因此，不能执行指令A的第二操作数和第三操组数的抓取。

在第1时钟周期，指令调度器从通用寄存器r0的高位数据区域（即“h”）读取指令A的第一操作数的高位数据（即从第二高位寄存器组中读取），同时，还从通用寄存器r1的低位数据区域，读取指令A的第二操作数的低位数据（即从第二低位寄存器组中读取）；指令执行器的第一操作数抓取模块，抓取指令调度器发送的上述r0的高位数据，指令执行器的第二操作数抓取模块，抓取指令调度器发送的上述r1的低位数据；另外，由于第二操作数并未读取完成，因此，不能执行指令A的第三操组数的抓取。

在第2时钟周期，指令调度器从第一低位寄存器组中读取指令B的第一操作数的低位数据；同时，还从通用寄存器r1的高位数据区域，读取指令A的第二操作数的高位数据（即从第二高位寄存器组中读取），从通用寄存器r2的低位数据区域，读取指令A的第三操作数的低位数据（即从第二低位寄存器组中读取）；指令执行器的第一操作数抓取模块，抓取指令调度器发送的上述指令B的第一操作数的低位数据，指令执行器的第二操作数抓取模块，抓取指令调度器发送的上述指令A的第二操作数的高位数据，指令执行器的第三操作数抓取模块，抓取指令调度器发送的上述指令A的第三操作数的低位数据；显然，在任何一个时钟周期内，两个低位数据寄存器组和两个高位数据寄存器组的设置，即可满足三个操作数抓取模块在不同操作数读取接口中的读取作业。

S203、分别从所述奇数编号线程组和所述偶数编号线程组中，遍历获取存在操作数读取需求的目标线程和目标指令。

S204、根据所述目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组，并根据所述目标指令，从所述至少一个目标寄存器组中读取目标数据；其中，所述寄存器组集合包括至少四个寄存器组；各所述寄存器组的操作数读取接口均不相同。

S205、根据所述目标指令，从流水线组件中获取目标操作数抓取模块，并通过所述目标操作数抓取模块抓取所述目标数据；其中，所述流水线组件包括至少三个操作数抓取模块；所述目标操作数抓取模块与所述目标寄存器组一一匹配。

本发明的技术方案中，指令调度器分别从奇数编号线程组和偶数编号线程组中，遍历获取存在操作数读取需求的目标线程和目标指令，可以满足三个操作数抓取模块的同时作业需求，减少了线程的分组数量，降低了线程的管理复杂度，同时，分配完成的第一低位寄存器组、第一高位寄存器组、第二低位寄存器组和第二高位寄存器组，可以满足不同操作数读取接口中的读取作业，减少了寄存器的分组数量，降低的操作数读取接口的维护难度，也降低了寄存器的管理复杂度。

实施例三

图3为本发明实施例三提供的一种多操作数指令的处理方法的流程图，在本发明实施例中，通过目标指令中，部分操作数已被抓取的第一类型指令，和/或操作数未被抓取的第二类型指令，获取目标操作数抓取模块。如图3所示，该方法包括：

S301、获取存在操作数读取需求的目标线程和目标指令，并根据所述目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组，以根据所述目标指令，从所述至少一个目标寄存器组中读取目标数据；其中，所述寄存器组集合包括至少四个寄存器组；各所述寄存器组的操作数读取接口均不相同；执行S302。

S302、判断目标指令中是否存在第一类型指令；其中，所述第一类型指令是部分操作数已被抓取的指令；若是，执行S303；若否，执行S305。

S303、根据所述第一类型指令的未抓取操作数，确定目标操作数抓取模块，并通过所述目标操作数抓取模块，抓取所述目标数据中所述第一类型指令的未抓取操作数；执行S304。

如果目标指令中存在第一类型指令，首先根据第一类型指令，确定目标操作数抓取模块，以优先将一条指令的操作数完整抓取，便于指令执行器的流水线组件中的其它功能模块，继续对该指令执行数据组织及数据计算等处理，避免流水线组件中空闲功能模块的出现降低GPU的运算效率，同时，也防止该指令的执行时间被拉长，导致出现指令响应延迟。

以图1C为例，如果当前时钟周期是第6时钟周期，第一类型指令为指令C，此时指令C的未抓取操作数包括第二操作数的高位数据，以及第三操作数的低位数据和高位数据，根据操作数的抓取顺序，首先根据第二操作数的高位数据，确定第二操作数抓取模块为目标操作数抓取模块，同时，通过第二操作数抓取模块，抓取目标数据中第二高位寄存器组的通用寄存器r5的高位数据。

同时，由于已分配了第二操作数的高位数据的抓取，且第二操作数的低位数据已抓取完成，因此，第三操作数也符合了前置抓取条件，此时，继续根据第三操作数的低位数据，确定第三操作数抓取模块为目标操作数抓取模块，同时，通过第三操作数抓取模块，抓取目标数据中第二低位寄存器组的通用寄存器r6的低位数据；而第三操作数的高位数据所对应的第三操作数抓取模块已被占用，在当前时钟周期，不对其进行抓取；由此基于第一类型指令，获取到两个目标操作数抓取模块，并为上述两个目标操作数抓取模块分配了抓取数据。

如果当前时钟周期是第7时钟周期，第一类型指令为指令C和指令D；如上所述，指令C的未抓取操作数包括第三操作数的高位数据，因此根据第三操作数的高位数据，确定第三操作数抓取模块为目标操作数抓取模块，同时，通过第三操作数抓取模块，抓取第二高位寄存器组中通用寄存器r6的高位数据；同样的，根据指令D的未抓取操作数中第一操作数的高位数据，将第一操作数抓取模块作为目标操作数抓取模块，通过第一操作数抓取模块，抓取指令D的第一操作数的高位数据；根据指令D的未读取操作数中第二操作数的低位数据，将第二操作数抓取模块作为目标操作数抓取模块，同时，通过第二操作数抓取模块，抓取指令D的第二操作数的低位数据；由此基于第一类型指令，获取到三个目标操作数抓取模块，并为上述三个目标操作数抓取模块分配了抓取数据。

S304、判断第一操作数抓取模块是否处于空闲状态；其中，所述第一操作数抓取模块是用于抓取第一操作数的操作数抓取模块；若是，执行S305；若否，执行S307。

在第1时钟周期、第3时钟周期、第5时钟周期和第7时钟周期内，已通过第一类型指令（分别为指令A、指令B、指令C、指令D），将第一操作数抓取模块作为了目标操作数抓取模块，因此，在第1时钟周期、第3时钟周期、第5时钟周期和第7时钟周期内，第一操作数抓取模块均不处于空闲状态。在第2时钟周期、第4时钟周期和第6时钟周期，通过第一类型指令仅将第二操作数抓取模块和第三操作数抓取模块，作为了目标操作数抓取模块，第一操作数抓取模块处于空闲状态。

S305、判断目标指令中是否存在第二类型指令；其中，所述第二类型指令是各操作数均未被抓取的指令；若是，执行S306；若否，执行S307。

S306、通过所述第一操作数抓取模块，抓取所述目标数据中所述第二类型指令的第一操作数的低位数据；执行S307。

在第0时钟周期内，不存在第一类型指令，仅存在一个第二类型指令（即指令A），此时直接将第一操作数抓取模块作为目标操作数抓取模块，同时，通过第一操作数抓取模块，抓取将指令A中第一操作数的低位数据。如上所述，在第2时钟周期、第4时钟周期和第6时钟周期，通过第一类型指令仅将第二操作数抓取模块和第三操作数抓取模块，作为了目标操作数抓取模块，第一操作数抓取模块处于空闲状态，如果此时未获取到第二类型指令，表明当前时钟周期内并未存在其它待执行指令，此时第一操作数抓取模块保持空闲状态即可。通过获取第一操作数抓取模块的工作状态，以及目标指令中的第二类型指令，使得在确保第一类型指令的操作数抓取完整的同时，充分利用了空闲中的第一操作数抓取模块，实现了第二类型指令中部分操作数的抓取，整体上提高了GPU的操作数抓取效率。

S307、结束。

本发明的技术方案中，根据目标指令中第一类型指令的未读取操作数，确定目标操作数抓取模块，以优先将一条指令的操作数完整抓取，便于指令执行器的流水线组件中的其它功能模块，继续对该指令执行数据组织及数据计算等处理，避免空闲功能模块的出现降低GPU的运行效率，同时，也防止该指令的执行时间被拉长，导致指令执行延迟，而通过获取第一操作数抓取模块的工作状态，以及目标指令中的第二类型指令，使得在确保第一类型指令的操作数读抓取完整的同时，充分利用了空闲中的第一操作数抓取模块，实现了第二类型指令中部分操作数的抓取，整体上提高了GPU的操作数抓取效率。

实施例四

图4是本发明实施例四所提供的一种图形处理器的结构框图，所述图形处理器包括指令调度器401和指令执行器402，所述指令调度器包括寄存器组获取模块403和目标数据读取模块404，该图形处理器具体包括：

所述寄存器组获取模块403，用于获取存在操作数读取需求的目标线程和目标指令，并根据所述目标线程从寄存器组集合中确定匹配的至少一个目标寄存器组；其中，所述寄存器组集合包括至少四个寄存器组；各所述寄存器组的操作数读取接口均不相同；

所述目标数据读取模块404，用于根据所述目标指令，从所述至少一个目标寄存器组中读取目标数据；

所述指令执行器402，用于根据所述目标指令，从流水线组件中获取目标操作数抓取模块，并通过所述目标操作数抓取模块抓取所述目标数据；其中，所述流水线组件包括至少三个操作数抓取模块；所述目标操作数抓取模块与所述目标寄存器组一一匹配。

可选的，图形处理器，还包括：

线程组分配模块，用于将各个线程分配至不同的线程组；其中，各所述线程组分别与不同的两个寄存器组相匹配。

可选的，寄存器组获取模块403，具体用于分别从各所述线程组中，遍历获取存在操作数读取需求的目标线程和目标指令。

可选的，图形处理器，还包括：

指令间隔时间设置模块，用于将预设数量时钟周期作为指令间隔时间，以使各所述线程组基于所述指令间隔时间轮流发出指令。

可选的，所述流水线组件包括三个操作数抓取模块；

线程组分配模块，具体用于基于线程编号将各个线程分配至奇数编号线程组或者偶数编号线程组；

寄存器组获取模块403，具体还用于分别从所述奇数编号线程组和所述偶数编号线程组中，遍历获取存在操作数读取需求的目标线程和目标指令。

可选的，图形处理器，还包括：

寄存器组分配模块，用于将各个寄存器分配至第一寄存器组或者第二寄存器组；其中，所述第一寄存器组包括第一低位寄存器组和第一高位寄存器组，所述第二寄存器组包括第二低位寄存器组和第二高位寄存器组，所述第一寄存器组用于存储所述奇数编号线程组所需的操作数，所述第二寄存器组用于存储所述偶数编号线程组所需的操作数。

可选的，指令执行器402，具体还用于判断目标指令中是否存在第一类型指令；其中，所述第一类型指令是部分操作数已被抓取的指令；若存在第一类型指令，则根据所述第一类型指令的未抓取操作数，确定目标操作数抓取模块，并通过所述目标操作数抓取模块，抓取所述目标数据中所述第一类型指令的未抓取操作数。

可选的，指令执行器402，具体还用于判断第一操作数抓取模块是否处于空闲状态；其中，所述第一操作数抓取模块是用于抓取第一操作数的操作数抓取模块；若处于空闲状态，判断目标指令中是否存在第二类型指令；其中，所述第二类型指令是各操作数均未被抓取的指令；若存在第二类型指令，则通过所述第一操作数抓取模块，抓取所述目标数据中所述第二类型指令的第一操作数的低位数据。

本发明所提供的图形处理器可执行本发明任意实施例所提供的多操作数指令的处理方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的多操作数指令的处理方法。

实施例五

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个图形处理器11，以及与至少一个图形处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，图形处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。图形处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

图形处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。图形处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。图形处理器11执行上文所描述的各个方法和处理，例如多操作数指令的处理方法。

具体的，该多操作数指令的处理方法，具体包括：

在一些实施例中，多操作数指令的处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM 和/或通信单元而被载入和/或安装到异构硬件加速器上。当计算机程序加载到RAM 并由处理器执行时，可以执行上文描述的多操作数指令的处理方法的一个或多个步骤。备选地，在其他实施例中，处理器可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行多操作数指令的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在异构硬件加速器上实施此处描述的系统和技术，该异构硬件加速器具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给异构硬件加速器。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种多操作数指令的处理方法，其特征在于，由图形处理器执行，包括：

2.根据权利要求1所述的方法，其特征在于，在获取存在操作数读取需求的目标线程和目标指令之前，包括：

将各个线程分配至不同的线程组；其中，各所述线程组分别与不同的两个寄存器组相匹配；

所述获取存在操作数读取需求的目标线程和目标指令，具体包括：

分别从各所述线程组中，遍历获取存在操作数读取需求的目标线程和目标指令。

3.根据权利要求2所述的方法，其特征在于，在将各个线程分配至不同的线程组之后，还包括：

将预设数量时钟周期作为指令间隔时间，以使各所述线程组基于所述指令间隔时间轮流发出指令。

4.根据权利要求2所述的方法，其特征在于，所述流水线组件包括三个操作数抓取模块；

所述将各个线程分配至不同的线程组，包括：

基于线程编号将各个线程分配至奇数编号线程组或者偶数编号线程组；

所述分别从各所述线程组中，遍历获取存在操作数读取需求的目标线程和目标指令，包括：

分别从所述奇数编号线程组和所述偶数编号线程组中，遍历获取存在操作数读取需求的目标线程和目标指令。

5.根据权利要求4所述的方法，其特征在于，在基于线程编号将各个线程分配至奇数编号线程组或者偶数编号线程组之后，还包括：

将各个寄存器分配至第一寄存器组或者第二寄存器组；

其中，所述第一寄存器组包括第一低位寄存器组和第一高位寄存器组，所述第二寄存器组包括第二低位寄存器组和第二高位寄存器组，所述第一寄存器组用于存储所述奇数编号线程组所需的操作数，所述第二寄存器组用于存储所述偶数编号线程组所需的操作数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标指令，从流水线组件中获取目标操作数抓取模块，并通过所述目标操作数抓取模块抓取所述目标数据，包括：

判断目标指令中是否存在第一类型指令；其中，所述第一类型指令是部分操作数已被抓取的指令；

若存在第一类型指令，则根据所述第一类型指令的未抓取操作数，确定目标操作数抓取模块，并通过所述目标操作数抓取模块，抓取所述目标数据中所述第一类型指令的未抓取操作数。

7.根据权利要求6所述的方法，其特征在于，在根据所述第一类型指令的未抓取操作数，确定目标操作数抓取模块之后，还包括：

判断第一操作数抓取模块是否处于空闲状态；其中，所述第一操作数抓取模块是用于抓取第一操作数的操作数抓取模块；

若处于空闲状态，判断目标指令中是否存在第二类型指令；其中，所述第二类型指令是各操作数均未被抓取的指令；

若存在第二类型指令，则通过所述第一操作数抓取模块，抓取所述目标数据中所述第二类型指令的第一操作数的低位数据。

8.一种图形处理器，其特征在于，所述图形处理器包括指令调度器和指令执行器，所述指令调度器包括寄存器组获取模块和目标数据读取模块；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个图形处理器；以及

与所述至少一个图形处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个图形处理器执行的计算机程序，所述计算机程序被所述至少一个图形处理器执行，以使所述至少一个图形处理器能够执行权利要求1-7中任一项所述的多操作数指令的处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的多操作数指令的处理方法。