CN105183433A

CN105183433A - 指令合并方法以及具有多数据通道的装置

Info

Publication number: CN105183433A
Application number: CN201510521991.2A
Authority: CN
Inventors: 张淮声; 洪洲; 齐恒
Original assignee: Shanghai Zhaoxin Integrated Circuit Co Ltd
Current assignee: Granfei Intelligent Technology Co ltd
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2015-12-23
Anticipated expiration: 2035-08-24
Also published as: TW201709060A; EP4258110A2; EP4258110A3; TWI552081B; EP3136228A1; US20170060594A1; EP3136228B1; US9904550B2; CN105183433B

Abstract

本发明的实施例提出一种由编译器执行的指令合并方法。取得多个第一指令，其中，第一指令用以进行计算操作、比较操作、逻辑操作、选择操作、条件分支操作、加载/存储操作、采样操作以及复杂数学操作中的其中之一。根据第一指令间的数据相依性进行合并，以及将合并的指令传送给流处理器。

Description

指令合并方法以及具有多数据通道的装置

技术领域

本发明关联于一种图形处理单元技术，特别是一种指令合并方法以及具有多数据通道的装置。

背景技术

图形处理单元的架构通常具有数百个基本着色器处理单元(basicshaderprocessingunits)，又称为流处理器(streamprocessors)。每一个流处理器于每个周期处理一个单指令多数据(SIMD,SingleInstructionMultipleData)线程(thread)的指令，接着于下一个周期处理另一个单指令多数据线程。图形处理单元的效能受到二个重要因素的影响，一为流处理器的数目，二为流处理器的能力。因此，本发明提出一种指令合并方法以及具有多数据通道的装置，用以增进流处理器的能力。

发明内容

本发明的实施例提出一种由编译器执行的指令合并方法。取得多个第一指令，其中，第一指令用以进行计算操作、比较操作、逻辑操作、选择操作以、条件分支操作、加载/存储操作、采样操作以及复杂数学操作中的一个。根据第一指令间的数据相依性进行合并，以及将合并的指令传送给流处理器。

本发明的实施例另提出一种具有多数据通道的装置，包含数据提取单元、旁路通道以及主通道。旁路通道耦接至通用寄存器、常数缓冲器以及数据提取单元。主通道耦接至数据提取单元以及旁路通道，包含序列的运算单元、比较/逻辑单元以及后制单元。运算单元、比较/逻辑单元以及后制单元序列性地耦接，并且运算单元、比较/逻辑单元以及后制单元中的每一个耦接至旁路通道。

附图说明

图1是依据本发明实施例的三维图形处理装置的硬件架构图。

图2是依据本发明实施例的指令合并方法流程图。

图3A及3B是依据本发明实施例的三维图形处理装置的硬件架构图。

图4是依据本发明实施例的指令合并方法流程图。

图5是依据本发明实施例的三维图形处理装置的硬件架构图。

具体实施方式

以下说明为完成发明的较佳实现方式，其目的在于描述本发明的基本精神，但并不用以限定本发明。实际的发明内容必须参考之后的权利要求书。

必须了解的是，使用于本说明书中的“包含”、“包括”等词，用以表示存在特定的技术特征、数值、方法步骤、作业处理、组件和/或组件，但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、组件、组件，或以上的任意组合。

于权利要求中使用如“第一”、“第二”、“第三”等词用来修饰权利要求中的组件，并非用来表示之间具有优先权顺序，先行关系，或者是一个组件先于另一个组件，或者是执行方法步骤时的时间先后顺序，仅用来区别具有相同名字的组件。

传统的流处理器执行单纯的操作，例如演算(Algorithm)、比较(Compare)、逻辑(Logic)、选择(Selection)及条件分支(Branch)等。但一个着色器的指令间的数据相依性高，使得流处理器必须频繁的读取或写入通用寄存器(CR,CommonRegisters)。这些数据相依性可能消耗大量的通用寄存器频宽并造成瓶颈，并产生系统瓶颈。此外，通用寄存器的写后读(RAW,ReadAfterWrite)问题可能危害指令执行的效能。着色器通常使用搬移(Move)指令来初始化通用寄存器，用以要求流处理器从一个通用寄存器或常数缓冲器(CB,ConstantBuffer)传递数据或常数至另一个通用寄存器或常数缓冲器。为一个后处理作业，例如进行数据存取的加载/存储单元(LD/STLoad/StoreUnit)、进行纹理数据采样的采样单元(SMP,SampleUnit)或特殊函数单元(SFU,SpecialFunctionUnit)等，流处理器负责从通用寄存器或常数缓冲器读取一个或多个来源值，接着，传递至相应的后处理单元。这些情况下，数据或常数不需要执行任何算法，造成一定程度的流处理器不具效率。本发明实施例提出一个新的架构，于一个流处理器中使用二个数据路径，用以提升流处理器的效能。第一个路径可称为主要通道(Main-pipe)，包含演算(Algorithm)、比较(Compare)、逻辑(Logic)、选择(Selection)及条件分支(Branch)等作业，而第二个路径可称为旁路通道(Bypass-pipe)，用以从通用寄存器或常数缓冲器读取数据或常数，以及传递至通用寄存器、常数缓冲器或后处理单元。

图1是依据本发明实施例的三维图形处理装置的硬件架构图。一个流处理器使用二个通道来执行指令，一为主要通道，另一为旁路通道。主要通道可包含三个具顺序的阶段：演算阶段(ALG,AlgorithmStage)；后逻辑阶段(Post-LGC,Logic)，包含比较和/或逻辑等操作；以及后处理阶段(Post-PROC,Process)包含选择、条件分支和/或结果回写等操作。一个阶段所产生的结果可带到下一个阶段。最终结果可存储至通用寄存器，或输出至后处理单元。详细来说，指令译码单元120译码从编译器(compiler)传来的指令请求110，并通知需要取得数据或常数的通用寄存器地址121和/或常数缓冲器地址123。指令译码单元120可取得指令请求110中的运算码(Opcode,OperationCode)。数据提取单元130取得通用寄存器地址121的数据133和/或常数缓冲器地址123的常数135，如果需要，通知欲写回的通用寄存器地址131。取得的数据133和/或常数135又可称为操作数(Operand)。运算单元140对取得的数据进行计算操作。计算操作包含加、减、乘、除、左位移、右位移等。比较/逻辑单元150可依据运算单元140产生的结果进行比较或逻辑操作。比较操作包含取大值、取小值、数值比较等，逻辑操作包含与(AND)、或(OR)、非(NOT)、或非(NOR)、异或(XOR)等。后制单元160可依据比较/逻辑单元150的操作结果将运算后的数据写回至通用寄存器，或者传递至加载/存储单元171、采样单元173以及特殊函数单元175中的一者。特殊函数单元175实施复杂数学运算，例如正弦(SIN)、余弦(COS)、根数(SQRT)等。旁路通道可包含旁路单元180，用以从一个通用寄存器或一个常数缓冲器传递数据或常数181至另一个通用寄存器或后处理单元。

编译器使用的指令可分为三类：主通道指令；旁路通道指令；以及后处理单元指令。主通道指令包含演算阶段、后逻辑阶段以及后处理阶段中使用到的指令。演算阶段可包含使用以下的指令(ALGinstructions)：FMAD、FADD、FMUL、IMUL24、IMUL16、IADD、SHL、SHR、FRC、FMOV、IMUL32I、IMUL24I、IADDI、IMAXI、IMINI、SHLI以及SHRI等。后逻辑阶段可包含使用以下的指令(CMP/LGCinstructions)：IMAX、IMIN、FCMP、ICMP、IMAXI、IMINI、NOR、AND、OR、XOR、ICMPI、NORI、ANDI、ORI以及XORI等。后处理阶段可包含使用以下的指令(SEL/Branchinstructions)：SEL、B、BL、IFANY以及IFALL等。后处理单元指令包含加载/存储单元171、采样单元173以及特殊函数单元175中使用到的指令。加载/存储单元171可包含使用以下的指令(LSinstructions)：LDU、STU、REDU、LDT、STT、REDUT、GLD、GST以及GREDU等。采样单元173可包含使用以下的指令(SMPinstructions)：SAMPLE、SAMPLE_B、SAMPLE_L、SAMPLE_C、SAMPLE_D、SAMPLE_GTH以及SAMPLE_FTH等。特殊函数单元175可包含使用以下的指令(SFUinstructions)：RCP、RSQ、LOG、EXP、SIN、COS以及SQRT等。旁路通道指令可包含以下的指令：MOV以及MOVIMM等。

使用如上所述的架构，编译器可依据数据相依性合并多个主通道指令及后处理单元指令成为一个指令，称为静态合并(StaticCombine)。图2是依据本发明实施例的指令合并方法流程图。编译器可取得多个主通道指令以及一个后处理指令(如果需要)(步骤S210)，依据指令间的数据相依性进行合并(S230)，以及将合并后的指令传送至指令译码单元120(步骤S250)。于步骤S230，编译器可依据以下规则来进行静态合并：

ALG+CMP+SEL；

ALG+CMP+SEL+SFU/LS/SMP；

ALG+CMP+Branch；

ALG+LGC+SEL；

ALG+LGC+SEL+SFU/LS/SMP；或

ALG+LGC+Branch。

其中，ALG代表计算指令，CMP代表比较指令，LGC代表逻辑指令，SEL代表选择指令，Branch代表条件分支指令，SFU代表数学运算指令，LS代表加载/存储指令，以及SMP代表采样指令。以下举出一个实例说明静态合并，着色器的伪码如下所示：

编译器将以上的伪码进行静态合并，并转译成如下所示的机器码：

第一个机器码指示将通用寄存器R4的值加上通用寄存器R8的值(亦即是变量a及b的值)，并且将结果传递到下个阶段，其中，“SFWD”代表将结果(亦即是变量x的值)传递到下一阶段的符号。第二个机器码指示将寄存器R5的值(亦即是变量c的值)与上一阶段传送下来的值(亦即是变量x的值)进行比较，并将比较结果存储于旗标P1，其中，“+”代表此指令合并至前一个指令并且“SFWD”代表从上一阶段传送下来的符号。如果变量x的值大于变量c的值，旗标P1设为“1”；否则，设为“0”。第三个机器码指示依据旗标P1将寄存器R0写入上一阶段传送下来的值(亦即是变量x的值)或者是寄存器R5的值(亦即是变量c的值)，其中，“+”代表此指令合并至前一个指令。如果旗标P1为“1”，将寄存器R0写入寄存器R5的值(亦即是变量c的值)；否则，写入上一阶段传送下来的值(亦即是变量x的值)。

为了让图形处理单元可执行合并后的指令，架构中的计算单元(calculationunits)可做一些调整。参考以上所述的静态合并实例。图3A及3B是依据本发明实施例的三维图形处理装置的硬件架构图。加法器310透过前数学逻辑单元(Pre-ALU,ArithmeticLogicUnit)取得寄存器R4的值以及通用寄存器R8的值(亦即是变量a及b的值)，并且将运算的结果透过标准化单元(Normalizer)及格式化单元(Formatter)传递至比较器330。比较器330接收运算单元140(上一个阶段)产生的结果，透过旁路单元180取得寄存器R5的值(亦即是变量c的值)，接着，进行二者间的比较。选择单元350依据比较结果(上一个阶段的输出)351将加法器310产生的结果(亦即是变量x的值)353以及从旁路单元180取得的通用寄存器R5的值355中的一者写回至寄存器R0。为执行合并后的指令，运算单元140中的计算单元耦接至数据提取单元130以及旁路单元180，用以取得操作数，并且耦接至逻辑单元150及后制单元160的计算单元，例如比较器330及选择单元350，用以输出结果到后续阶段。逻辑单元150中的计算单元耦接至运算单元140及旁路单元180，用以取得操作数，并且耦接至后制单元160的计算单元，例如选择单元350，用以输出结果到后续阶段。后制单元160中的计算单元耦接至运算单元140、逻辑单元150及旁路单元180，用以取得操作数，并且耦接至通用寄存器、加载/存储单元171、采样单元173以及特殊函数单元175，例如选择单元350，用以写回数据至通用寄存器或输出结果到后处理单元。除了选择单元350，后制单元160还可包含条件分支单元以及是否写回结果至通用寄存器的判断单元。

使用如上所述的架构，编译器亦可将旁路通道指令合并主通道指令和/或后处理单元指令成为一个指令，称为旁路合并(BypassedCombine)。图4是依据本发明实施例的指令合并方法流程图。编译器可取得多个指令(步骤S410)，将一个旁路通道指令以及主通道指令及后处理单元指令中的至少一个进行合并(步骤S430)，以及将合并后的指令传送至指令译码单元120(步骤S450)。于步骤S430，多个主通道指令的合并顺序需要服从之前提过的规则。换句话说，步骤S430可视为将多个主通道指令的合并结果再合并一个旁路通道指令和/或一个后处理指令。以下举出旁路合并的实例，机器码如下：

第一个机器码指示将通用寄存器R4的值存储至通用寄存器R0。第二个机器码指示将通用寄存器R4的值加上通用寄存器R8的值，并且将结果传递到下个阶段，其中，“SFWD”代表将结果传递到下一阶段的符号。第三个机器码指示将上一阶段传送下来的值求取倒数(reciprocal)，并且将结果写入寄存器R7，其中，“SFWD”代表从上一阶段传送下来的符号。

图5是依据本发明实施例的三维图形处理装置的硬件架构图。旁路单元180接收数据提取单元130的指示，读取通用寄存器R4的值并写入通用寄存器R0。同时，加法器510透过前数学逻辑单元取得通用寄存器R4的值以及通用寄存器R8的值，并且将运算的结果传递至特殊函数单元175。特殊函数单元175接着求出倒数，并写入通用寄存器R7。由于旁路通道指令处理时，主通道指令及后处理单元指令可平行处理，使得流处理器的效能可进一步提升。

参考图3及图5。总的来说，为执行合并后的指令，运算单元、比较/逻辑单元以及后制单元序列性地耦接，并且运算单元、比较/逻辑单元以及后制单元耦接至旁路通道。详细来说，运算单元140中的第一计算单元(例如，加法器、乘法器、除法器等)耦接至旁路单元(亦即是旁路通道)180及数据提取单元130，用以从旁路单元180和/或数据提取单元130取得操作数。比较/逻辑单元150中的第二计算单元(例如，比较器、各式各样逻辑闸等)耦接至旁路单元180及第一计算单元的输出，用以从旁路单元180和/或第一计算单元的输出取得操作数。后制单元160中的第三计算单元(例如，选择单元、条件分支单元等)耦接至旁路单元180、第一计算单元的输出以及第二计算单元的输出，用以从上述旁路单元180、第一计算单元的输出和/或第二计算单元的输出取得操作数。第三计算单元更耦接至加载/存储单元171、采样单元173以及特殊函数单元175，用以输出作业结果至这些后处理单元。

虽然图1、3、5中包含了以上描述的组件，但不排除在不违反发明的精神下，使用更多其它的附加组件，以达成更佳的技术效果。此外，虽然图2、4的处理步骤采用特定的顺序来执行，但是在不违反发明精神的情况下，本领域技术人员可以在达到相同效果的前提下，修改这些步骤间的顺序，所以，本发明并不局限于仅使用如上所述的顺序。

虽然本发明使用以上实施例进行说明，但需要注意的是，这些描述并非用以限缩本发明。相反地，此发明涵盖了本领域技术人员显而易见的修改与相似设置。所以，权利要求范围须以最宽广的方式解释来包含所有显而易见的修改与相似设置。

【符号说明】

110指令请求；120指令译码单元；

121通用寄存器地址；123常数缓冲器地址；

130数据提取单元；131通用寄存器地址；

133数据；135常数；

140运算单元；150比较/逻辑单元；

160后制单元；171加载/存储单元；

173采样单元；175特殊函数单元；

180旁路单元；181数据或常数；

S210～S250方法步骤；310加法器；

330比较器；351比较结果；

353加法器产生结果；355通用寄存器的值；

S410～S450方法步骤；510加法器。

Claims

1.一种指令合并方法，由一编译器执行，包含：

取得多个第一指令，其中，每一上述第一指令用以进行计算操作、比较操作、逻辑操作、选择操作、条件分支操作、加载/存储操作、采样操作以及复杂数学操作中的其中之一；

根据上述第一指令间的数据相依性进行合并；以及

将上述合并的指令传送给一流处理器。

2.如权利要求1所述的指令合并方法，其中，上述第一指令依据以下规则进行合并：

ALG+CMP+SEL；

ALG+CMP+SEL+SFU/LS/SMP；

ALG+CMP+Branch；

ALG+LGC+SEL；

ALG+LGC+SEL+SFU/LS/SMP；或

ALG+LGC+Branch，

其中，ALG代表一计算指令，CMP代表一比较指令，LGC代表一逻辑指令，SEL代表一选择指令，Branch代表一条件分支指令，SFU代表一数学运算指令，LS代表一加载/存储指令，以及SMP代表一采样指令。

3.如权利要求1所述的指令合并方法，还包含：

取得一第二指令，其中上述第二指令用以从一通用寄存器或一常数缓冲器传递数据至另一通用寄存器或一后处理单元；以及

将上述第一指令的合并结果再合并上述第二指令。

4.如权利要求1所述的指令合并方法，其中，上述流处理器包含：

一数据提取单元；

一旁路通道，耦接至一通用寄存器、一常数缓冲器以及上述数据提取单元；以及

一主通道，耦接至上述数据提取单元以及上述旁路通道，包含一运算单元、一比较/逻辑单元以及一后制单元，

其中，上述运算单元、上述比较/逻辑单元以及上述后制单元序列性地耦接，并且上述运算单元、上述比较/逻辑单元以及上述后制单元中的每一个耦接至上述旁路通道。

5.如权利要求4所述的指令合并方法，其中，上述运算单元中的一第一计算单元耦接至上述旁路通道及上述数据提取单元，用以从上述旁路通道和/或上述数据提取单元取得操作数；上述比较/逻辑单元中的一第二计算单元耦接至上述旁路通道及上述第一计算单元的一第一输出，用以从上述旁路通道和/或上述第一输出取得操作数；以及上述后制单元中的一第三计算单元耦接至上述旁路通道、上述第一计算单元的上述第一输出以及上述第二计算单元的一第二输出，用以从上述旁路通道、上述第一输出和/或上述第二输出取得操作数。

6.一种具有多数据通道的装置，包含：

一数据提取单元；

一主通道，耦接至上述数据提取单元以及上述旁路通道，包含序列的一运算单元、一比较/逻辑单元以及一后制单元，

其中，上述运算单元、上述比较/逻辑单元以及上述后制单元序列性地耦接，并且上述运算单元、上述比较/逻辑单元以及上述后制单元中的每一个都耦接至上述旁路通道。

7.如权利要求6所述的具有多数据通道的装置，其中，上述运算单元中的一第一计算单元耦接至上述旁路通道及上述数据提取单元，用以从上述旁路通道和/或上述数据提取单元取得操作数；上述比较/逻辑单元中的一第二计算单元耦接至上述旁路通道及上述第一计算单元的一第一输出，用以从上述旁路通道和/或上述第一输出取得操作数；以及上述后制单元中的一第三计算单元耦接至上述旁路通道、上述第一计算单元的上述第一输出以及上述第二计算单元的一第二输出，用以从上述旁路通道、上述第一输出和/或上述第二输出取得操作数。

8.如权利要求7所述的具有多数据通道的装置，其中，上述第三计算单元耦接至一加载/存储单元、一采样单元以及一特殊函数单元，用以输出作业结果。

9.如权利要求8所述的具有多数据通道的装置，其中，上述加载/存储单元执行一加载/存储指令，上述采样单元执行一采样指令，以及上述特殊函数单元执行一数学运算指令。

10.如权利要求6所述的具有多数据通道的装置，其中，上述主通道执行一主通道指令，以及上述旁路通道执行一旁路通道指令。

11.如权利要求10所述的具有多数据通道的装置，其中，上述主通道指令及上述旁路通道指令平行地执行。

12.如权利要求10所述的具有多数据通道的装置，其中，上述主通道指令包含一计算指令、一比较指令、一逻辑指令、一选择指令以及一条件分支指令，以及上述旁路通道指令包含一移动指令。