CN105513003A - 一种图形处理器统一染色器阵列体系结构 - Google Patents
一种图形处理器统一染色器阵列体系结构 Download PDFInfo
- Publication number
- CN105513003A CN105513003A CN201510929992.0A CN201510929992A CN105513003A CN 105513003 A CN105513003 A CN 105513003A CN 201510929992 A CN201510929992 A CN 201510929992A CN 105513003 A CN105513003 A CN 105513003A
- Authority
- CN
- China
- Prior art keywords
- unit
- usa
- dau
- ssc
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Generation (AREA)
Abstract
本发明涉及一种图形处理器统一染色器阵列体系结构,该结构为USA单元,USA单元包括若干用于对顶点和像素任务进行统一染色处理的SSC单元;用于对USA单元中存储资源的访问进行译码和仲裁的DAU单元;用于顶点染色过程中存储相关常量的VP单元和用于像素染色过程中存储相关常量的PP单元;DAU单元与SSC单元相连,用于SSC和USA外部进行数据的输入输出和控制信号的交互;VP单元与DAU单元相连,用于存储SGU配置的常量参数,并为SSC顶点染色提供常量数据;PP单元与DAU单元相连,用于存储SGU配置的常量参数,并为SSC像素染色提供常量数据。本发明能够实现顶点和像素的统一染色,且染色程序可编程。
Description
技术领域
本发明属于图形处理器设计领域,涉及一种图形处理器统一染色器阵列体系结构。
背景技术
图形处理器(GraphicProcessUnit,GPU)是现代计算机硬件的重要组成部分,是进行图形绘制、处理和显示的关键部件,其普遍存在于工作站、个人电脑、笔记本、手机以及各类需进行图形显示的系统中。GPU负责产生2D和3D的图形、图像和视频,以支持基于窗口的操作系统、图形用户界面、视频游戏、可视化图像应用和视频播放等可视化计算。GPU技术的发展主要经历了固定功能流水线阶段、分离染色器架构阶段和统一染色器架构阶段,其图形处理能力不断提升,应用领域也从最初的图形绘制逐步扩展到通用计算领域。GPU自身具有的流水线高速、并行的特征和灵活的可编程能力,为图形处理和通用并行计算提供了良好的运行平台。
目前,我国GPU研制能力薄弱,各领域显示控制系统中大量采用国外进口的商用GPU芯片。尤其是在军用领域中,国外进口的商用GPU芯片存在安全性、可靠性、保障性等方面的隐患,无法满足军用环境的需求;而且,出于政治、军事、经济等原因,国外对我国实行技术“封锁”和产品“垄断”,难以获得GPU芯片的底层技术资料,如寄存器资料、详细内部微架构、核心软件源码等,导致GPU功能、性能无法充分发挥,且移植性较差;上述问题严重制约了我国显示系统的独立研制和自主发展,研制具有自主知识产权的统一染色图形处理器芯片已迫在眉睫,而统一染色器阵列作为统一染色图形处理器的关键和核心,对其因设计技术进行研究和突破已刻不容缓。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提供一种突破统一染色阵列设计的关键技术的可用于图形处理器的统一染色器阵列体系架构。
本发明的技术解决方案是:本发明为一种图形处理器统一染色器阵列体系结构,其特殊之处在于:该结构为USA单元,所述USA单元包括若干用于对顶点和像素任务进行统一染色处理的SSC单元;用于对USA单元中存储资源的访问进行译码和仲裁的DAU单元;用于顶点染色过程中存储相关常量的VP单元和用于像素染色过程中存储相关常量的PP单元;所述DAU单元与SSC单元相连,用于SSC和USA外部进行数据的输入输出和控制信号的交互;所述VP单元与DAU单元相连,用于存储SGU配置的常量参数,并为SSC顶点染色提供常量数据;所述PP单元与DAU单元相连,用于存储SGU配置的常量参数,并为SSC像素染色提供常量数据。
上述SSC单元采用单指令多线程技术,使用单条32位标量指令控制多个SPU的执行,包括:若干用于执行染色程序的SPU单元;用于对SSC进行控制和调度的CU单元;用于加速指令存取速度的I$单元;用于加速常量存取的C$单元;用于对内部存储器访问进行译码和仲裁控制的RAC单元;用于对指令进行取指译码的FDU单元;用于在LSRAM单元和RF单元之间进行数据交换的LSU单元和用于在SPU单元间共享数据的SSRAM单元;所述I$单元与FDU单元连接,用于向FDU提供染色指令;所述C$单元与LSU单元连接,用于提供染色过程中使用的常量;所述LSRAM单元、SSRAM单元、C$单元和LSU单元均与RAC单元相连;所述SPU单元与FDU单元、LSU单元、RAC单元相连。
上述SPU单元包括四个用于执行常规运算的SC单元;一个用于执行特殊功能函数的SFU单元;一个用于程序分支处理的BRU单元;五套用于数据存储的RF单元,分别与4个SC单元和1个SFU单元对应;五套用于数据存储的LSRAM单元,分别与4个SC单元和1个SFU单元对应。
上述RF单元为寄存器文件;所述LSRAM单元为局部存储器。
上述USA单元通过DAU单元与外部用于为USA分配顶点和像素染色任务的JSU单元耦合;所述USA单元通过DAU单元与外部用于将USA的染色结果输出到后续图形流水线的OCU单元耦合;所述USA单元通过DAU单元与外部用于对图形处理器状态和图形功能管理的SGU单元耦合;所述USA单元通过DAU单元与外部用于对图形显示存储进行访问的MMU单元耦合;所述USA单元通过DAU单元与外部用于与主机进行交互的HIU单元耦合;所述USA单元通过DAU单元与外部用于纹素计算的TUA单元耦合。
本发明具有以下优点:
1、本发明提供的统一染色器阵列体系结构,内部可集成众多染色器核,提供强大的统一染色能力,能够实现顶点和像素的统一染色,且染色程序可编程。
2、顶点染色可完成的功能如下:顶点、纹理坐标、光栅位置、法向量、光源位置和聚光灯方向向量的旋转、平移和缩放操作;顶点的光照计算,最多支持8盏灯,同时支持单面和双面光照;模型视图矩阵和纹理矩阵的基本操作;法向量标准化计算。
3、像素染色可完成的功能如下:纹理组合器、雾处理操作。
4、本发明突破了图形处理器设计中统一染色阵列设计,可用于国产统一染色图形处理器芯片的研制。
附图说明:
图1是本发明的结构整体框图,其中:USA-统一染色器阵列;SSC-SIMT染色单元簇;DAU-译码仲裁单元;RAC-RAM访问控制;SPU-染色处理单元;VP-顶点参数单元;PP-像素参数单元;JSU-任务调度单元;OCU-输出控制单元;SGU-状态参数与图形功能单元;MMU-存储管理单元;HIU-主机接口单元;TUA-纹理单元阵列。
图2是本发明的SSC单元的结构框图,其中:CU-控制单元;I$-指令高速缓存;C$-常量高速缓存;FDU-取指译码单元;SSRAM-共享存储器;LSU-加载存储单元;SFU-特殊功能单元;SC-染色器核;BRU-分支处理单元;RF-寄存器文件;LSRAM-本地存储器。
图3是本发明的SPU单元的详细框图,其中:WBU-写回单元;IRF-定点寄存器文件;FRF-浮点寄存器文件。
图4是本发明的FDU单元的详细框图。
图5是本发明的SC单元的详细框图,其中:FLE-浮点执行单元;FIE-定点执行单元。
图6是本发明DAU单元的结构框图。
具体实施方式:
下面结合附图和具体实施例,对本发明的技术方案进行清楚、完整地表述。显然,所表述的实施例仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提所获得的所有其他实施例,都属于本发明的保护范围。
参见图1,本发明包含了5个用于对顶点和像素任务进行统一染色处理的SSC单元;包含了用于对USA单元中存储资源的访问进行译码和仲裁的DAU单元;包含了用于顶点染色过程中存储相关常量的VP单元;包含了用于像素染色过程中存储相关常量的PP单元。
下面分别详细介绍各模块的具体结构及功能:
1、SSC单元为USA单元的主要组成部分,是进行顶点、像素染色的主要功能部件是warp执行的硬件载体。Warp是由待处理数据、对数据进行加工的程序,以及加工后产生的结果数据组成的集合。多个warp可在同一SSC硬件上互不干扰地分时执行,不同warp需要有不同的现场记录相关信息,即warp需要由相应的硬件支持。SSC单元上:warp待处理数据由需要进行相同处理(顶点染色或像素染色)的16个顶点或像素组成;对数据进行加工的程序包括两大类,即顶点染色程序和像素染色程序;加工后产生的结果数据包括顶点染色的输出和像素染色的输出。1个SSC支持8warp,每warp的单条32位指令执行4个周期,每周期可控制16个SC/4个SFU并行对不同数据进行处理,即可同时处理16个顶点/像素任务,4个周期共64线程,此处即单指令多线程技术。
参见图2,SSC单元由以下子模块构成:
1.1、SPU单元:SPU单元为SSC单元的主要组成部分,是进行染色处理的核心执行部件,主要完成顶点染色、像素染色任务的运算以及相关数据的存储。
参见图3,SPU单元由以下子模块构成:
1.1.1、4个SC单元:SC单元负责定点和浮点常规运算的执行,是进行染色运算的基础执行结构,其由FIE单元、FLE单元和WBU单元组成,参见图5,其中:
FLE单元负责浮点常规运算的执行,其由FMAC、FFU、FDIV、FADD单元组成;
FMAC单元完成浮点乘法、浮点乘累加运算(FMUL、FMAC),两者复用实现;
FFU单元负责完成简单的浮点操作包括FINT、FMOV和FABS指令;
FDIV单元完成浮点除法运算;
FADD单元负责完成浮点加减法运算(FADD、FSUB),此外,还负责浮点比较设置类指令(FSETLT、FSETGT、FSETLE、FSETGE、FSETEQ、FSETNE)、浮点定点转换指令(FSTOI、FITOS)和条件传送类指令(FMOVLT、FMOVGT、FMOVLE、FMOVGE、FMOVEQ、FMOVNE)的执行;
FIE单元负责定点常规运算的执行,其由MAC、ALU1、ALU2、DIV单元组成;
MAC单元完成定点乘法、定点乘累加运算(MUL、MAC),两者复用实现;
ALU单元完成加减法运算(ADD、ADDC、SUB、SUBC)、条件比较设置类指令(MOV、SMOV、SMOVS、STM、MOVLT、MOVGT、MOVLE、MOVGE、MOVEQ、MOVNE、SLT、SGT、SLE、SGE、SEQ、SNE)、逻辑及移位运算类指令(AND、ANDN、OR、ORN、XOR、XNOR、SLL、SLA、SRL、SRA)的执行;
DIV单元完成定点除法运算和取模运算(DIV、REM);
WBU单元负责SC、LSU执行结果向RF(包括IRF和FRF)的写回。
1.1.2、1个SFU单元:SFU单元负责定点和浮点特殊功能运算的执行,用
于对染色程序中的特殊运算进行加速,其由FILE单元和WBU单元组成。其中:FILE单元负责定点和浮点特殊功能运算的执行;WBU单元负责执行结果向RF(包括IRF和FRF)的写回。
1.1.3、1个BRU单元:BRU单元负责执行Mask的产生,以对SPU内部4个SC和1个SFU进行控制,此外,还包括断言Mask栈、断言寄存器的实现。
1.1.4、5个RF单元:分别用于存放4个SC、1个SFU计算过程中的定点和浮点数据。每个RF单元均由IRF和FRF组成,其中IRF为定点寄存器文件,FRF为浮点寄存器文件。与SC对应的IRF、FRF均为4个读端口,2个写端口;与SFU对应的IRF为2个读端口,1个写端口;与SFU对应的FRF为1个读端口,1个写端口。每个RF均具有32个不同的现场,用于支持8个warp,每个warp4个周期的执行。
1.1.5、5个LSRAM单元:用于存放染色程序所需的输入数据、染色过程中的中间数据和染色完成的结果数据。每个LSRAM也具有32个不同的现场。
1.2、CU单元:CU单元主要负责Warp调度、控制状态寄存器的实现和条件分支分歧的判定。Warp调度,即从SSC上具备执行条件的多个warp中选出一个,在SSC执行,该warp的1条指令执行4个周期后,调度下一个具备执行条件warp的指令执行4个周期;控制和状态寄存器是JSU、OCU和USA进行控制和状态交换的接口;条件分支分歧判定,即对条件跳转指令在各SC上的执行结果是否存在分歧进行判定,以便更新该warp对应PC。
1.3、I$单元:I$单元为指令Cache,用于提高取指效率,同时减少对DDR中染色程序存储区的访问,I$仅有单个现场。
1.4、C$单元:C$单元为常量Cache,用于缓存VP、PP参数,提高数据访问速度,C$提供非阻塞支持。
1.5、FDU单元:FDU单元主要负责取指、译码功能。由于SSC采用双发射结构,FDU单元还包括同时发射的两条指令的拆分和拼接,此外,译码级包括计分板,故FDU单元还负责数据相关、结构相关的检测。参见图4,FDU单元
由取指单元、Buffer单元、预译码单元、IBuffer单元、计分板单元和译码单元组成。其中:取指单元负责向I$发出指令的地址,并负责PC的维护;Buffer单元用于缓存从I$单元取出的指令;预译码单元用于对双发射的两条指令之间的数据相关、结构相关进行化解,化解方法为拆分并插入空操作指令;IBuffer单元用于存储经过预译码单元处理的指令;计分板单元用于对待发射指令和正在执行的指令之间的数据相关、结构相关进行预先检测,并向CU单元中的warp调度其提供进行warp调度所需信息;译码单元对warp调度器给出的获得执行资格的warp的指令进行译码。
2、DAU单元:DAU单元用于USA内部同类资源和外部模块间访问的译码及仲裁。内部资源包括:VP、PP、和SSC1~SSC5;外部模块包括JSU、OCU、SGU、MMU、HIU、TUA1和TUA2。DAU单元的结构如图5所示,虽然描述时将DAU单元作为1个模块,但其实际上其由多个独立的单元组成。包括:
JSU到SSC译码逻辑2套(顶点任务、像素任务各1套),即VI选择单元和PI选择单元,分别用于将JSU组装完成的顶点染色任务和像素染色任务分配到对应的SSC单元。其中VI、PI选择单元均为1:5译码逻辑。
SSC到OCU仲裁逻辑2套(顶点任务、像素任务各1套),即VO选择单元和PO选择单元,分别用于将SSC单元完成的顶点染色任务和像素染色任务输出到OCU单元。其中VO、PO选择单元均为5:1仲裁逻辑。
参数访问仲裁逻辑1套,用于仲裁SGU、5个C$到VP和PP的访问。该单元由仲裁选择单元、C$Crossbar和访问合并单元组成。
仲裁选择单元用于在SGU和C$之间进行仲裁,以对VP/PP进行访问。
C$Crossbar为5*2的crossbar,用于5个C$到VP、PP的访问。
访问合并单元,用于对5个C$的访问请求进行合并,减少对VP、PP的访问请求,并提高性能。
主机接口译码逻辑1套,用于主机访问5个SSC(调试模式下)LocalSRAM的译码,其实质为1:5译码逻辑。
I$仲裁单元1套,用于5个I$到MMU访问的仲裁,其实质为5:1仲裁逻辑。纹理Crossbar单元1套,用于5个LSU到2个纹理阵列访问的分配和仲裁,其实质为5*2的Crossbar。
3、VP单元:VP单元用于存储顶点染色过程中所需要的相关常量,其由参数存储器、控制逻辑和若干属性堆栈组成。其中:
参数存储器为单端口SRAM,用于存储顶点染色所需的参数;
控制逻辑用于控制参数存储器的读写,并负责在接收到压栈命令后将相应属性从参数存储中压入属性栈,接收到出栈信号后将相应属性从属性栈恢复到参数存储;
属性栈,用于保存特定的属性,用SRAM实现。每个属性栈的宽度相同,而深度不尽相同。
4、PP单元:PP单元用于存储像素染色过程中所需要的相关常量,其内部模块和作用与VP单元内部模块类似。
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种图形处理器统一染色器阵列体系结构,其特征在于:该结构为USA单元,所述USA单元包括若干用于对顶点和像素任务进行统一染色处理的SSC单元;用于对USA单元中存储资源的访问进行译码和仲裁的DAU单元;用于顶点染色过程中存储相关常量的VP单元和用于像素染色过程中存储相关常量的PP单元;所述DAU单元与SSC单元相连,用于SSC和USA外部进行数据的输入输出和控制信号的交互;所述VP单元与DAU单元相连,用于存储SGU配置的常量参数,并为SSC顶点染色提供常量数据;所述PP单元与DAU单元相连,用于存储SGU配置的常量参数,并为SSC像素染色提供常量数据。
2.根据权利要求1所述的图形处理器统一染色器阵列体系结构,其特征在于:所述SSC单元采用单指令多线程技术,使用单条32位标量指令控制多个SPU的执行,包括:若干用于执行染色程序的SPU单元;用于对SSC进行控制和调度的CU单元;用于加速指令存取速度的I$单元;用于加速常量存取的C$单元;用于对内部存储器访问进行译码和仲裁控制的RAC单元;用于对指令进行取指译码的FDU单元;用于在LSRAM单元和RF单元之间进行数据交换的LSU单元和用于在SPU单元间共享数据的SSRAM单元;所述I$单元与FDU单元连接,用于向FDU提供染色指令;所述C$单元与LSU单元连接,用于提供染色过程中使用的常量;所述LSRAM单元、SSRAM单元、C$单元和LSU单元均与RAC单元相连;所述SPU单元与FDU单元、LSU单元、RAC单元相连。
3.根据权利要求2所述的图形处理器统一染色器阵列体系结构,其特征在于:所述SPU单元包括四个用于执行常规运算的SC单元;一个用于执行特殊功能函数的SFU单元;一个用于程序分支处理的BRU单元;五套用于数据存储的RF单元,分别与4个SC单元和1个SFU单元对应;五套用于数据存储的LSRAM单元,分别与4个SC单元和1个SFU单元对应。
4.根据权利要求3所述的图形处理器统一染色器阵列体系结构,其特征在于:所述RF单元为寄存器文件;所述LSRAM单元为局部存储器。
5.根据权利要求1或2或3或4所述的图形处理器统一染色器阵列体系结构,其特征在于:所述USA单元通过DAU单元与外部用于为USA分配顶点和像素染色任务的JSU单元耦合;所述USA单元通过DAU单元与外部用于将USA的染色结果输出到后续图形流水线的OCU单元耦合;所述USA单元通过DAU单元与外部用于对图形处理器状态和图形功能管理的SGU单元耦合;所述USA单元通过DAU单元与外部用于对图形显示存储进行访问的MMU单元耦合;所述USA单元通过DAU单元与外部用于与主机进行交互的HIU单元耦合;所述USA单元通过DAU单元与外部用于纹素计算的TUA单元耦合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510929992.0A CN105513003B (zh) | 2015-12-11 | 2015-12-11 | 一种图形处理器统一染色器阵列体系结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510929992.0A CN105513003B (zh) | 2015-12-11 | 2015-12-11 | 一种图形处理器统一染色器阵列体系结构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105513003A true CN105513003A (zh) | 2016-04-20 |
CN105513003B CN105513003B (zh) | 2018-10-26 |
Family
ID=55720961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510929992.0A Active CN105513003B (zh) | 2015-12-11 | 2015-12-11 | 一种图形处理器统一染色器阵列体系结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105513003B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651743A (zh) * | 2016-12-12 | 2017-05-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种支持聚散功能的统一染色阵列lsu结构 |
CN106651744A (zh) * | 2016-12-12 | 2017-05-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种低功耗gpu染色任务与统一染色阵列任务现场映射结构 |
CN106651742A (zh) * | 2016-12-12 | 2017-05-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色架构图形处理器单指令多线程染色簇结构 |
CN106709860A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种gpu统一染色处理阵列的调试结构 |
CN106708473A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色器阵列多warp取指电路及方法 |
CN106709858A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色图形处理器单指令多线程染色处理单元结构 |
CN106708474A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种基于dimt架构的统一染色阵列记分板实现架构 |
CN106776023A (zh) * | 2016-12-12 | 2017-05-31 | 中国航空工业集团公司西安航空计算技术研究所 | 一种自适应gpu统一染色阵列任务负载均衡方法 |
CN108133452A (zh) * | 2017-12-06 | 2018-06-08 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色器阵列的指令发射处理电路 |
CN108228236A (zh) * | 2017-12-06 | 2018-06-29 | 中国航空工业集团公司西安航空计算技术研究所 | 一种支持流水的高效指令发射处理电路 |
CN108255743A (zh) * | 2017-12-06 | 2018-07-06 | 中国航空工业集团公司西安航空计算技术研究所 | 一种用于在染色内核中写回仲裁电路 |
CN109118572A (zh) * | 2018-08-07 | 2019-01-01 | 芯视图(常州)微电子有限公司 | Simt 顶点和像素染色基本程序生产方法 |
CN109191363A (zh) * | 2018-07-30 | 2019-01-11 | 芯视图(常州)微电子有限公司 | 图形处理器中适应可扩展计算单元的固定功能单元装置 |
CN111048156A (zh) * | 2019-11-21 | 2020-04-21 | 中国航空工业集团公司西安航空计算技术研究所 | 一种大规模染色阵列性能检测评价方法 |
CN112581351A (zh) * | 2020-12-05 | 2021-03-30 | 西安翔腾微电子科技有限公司 | 一种双发射simt染色处理单元写回单元结构及写回通路冲突检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090147017A1 (en) * | 2007-12-06 | 2009-06-11 | Via Technologies, Inc. | Shader Processing Systems and Methods |
CN101620725A (zh) * | 2008-07-03 | 2010-01-06 | 辉达公司 | 混合多重采样/超采样抗锯齿 |
CN104050706A (zh) * | 2013-03-12 | 2014-09-17 | 辉达公司 | 用于低功率图形渲染的像素着色器旁路 |
CN104503950A (zh) * | 2014-12-09 | 2015-04-08 | 中国航空工业集团公司第六三一研究所 | 一种面向OpenGL API的图形处理器 |
CN104504647A (zh) * | 2014-12-09 | 2015-04-08 | 中国航空工业集团公司第六三一研究所 | 一种图形处理器的片上存储层次结构 |
CN104715443A (zh) * | 2013-12-13 | 2015-06-17 | 三星电子株式会社 | 图形处理单元、系统芯片和数据处理系统 |
-
2015
- 2015-12-11 CN CN201510929992.0A patent/CN105513003B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090147017A1 (en) * | 2007-12-06 | 2009-06-11 | Via Technologies, Inc. | Shader Processing Systems and Methods |
CN101620725A (zh) * | 2008-07-03 | 2010-01-06 | 辉达公司 | 混合多重采样/超采样抗锯齿 |
CN104050706A (zh) * | 2013-03-12 | 2014-09-17 | 辉达公司 | 用于低功率图形渲染的像素着色器旁路 |
CN104715443A (zh) * | 2013-12-13 | 2015-06-17 | 三星电子株式会社 | 图形处理单元、系统芯片和数据处理系统 |
CN104503950A (zh) * | 2014-12-09 | 2015-04-08 | 中国航空工业集团公司第六三一研究所 | 一种面向OpenGL API的图形处理器 |
CN104504647A (zh) * | 2014-12-09 | 2015-04-08 | 中国航空工业集团公司第六三一研究所 | 一种图形处理器的片上存储层次结构 |
Non-Patent Citations (1)
Title |
---|
黄虎才: "多态阵列处理器的并行计算研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651743A (zh) * | 2016-12-12 | 2017-05-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种支持聚散功能的统一染色阵列lsu结构 |
CN106708473B (zh) * | 2016-12-12 | 2019-05-21 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色器阵列多warp取指电路 |
CN106708474B (zh) * | 2016-12-12 | 2020-04-07 | 中国航空工业集团公司西安航空计算技术研究所 | 一种基于dimt架构的统一染色阵列记分板实现架构 |
CN106709860A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种gpu统一染色处理阵列的调试结构 |
CN106708473A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色器阵列多warp取指电路及方法 |
CN106709858A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色图形处理器单指令多线程染色处理单元结构 |
CN106708474A (zh) * | 2016-12-12 | 2017-05-24 | 中国航空工业集团公司西安航空计算技术研究所 | 一种基于dimt架构的统一染色阵列记分板实现架构 |
CN106776023A (zh) * | 2016-12-12 | 2017-05-31 | 中国航空工业集团公司西安航空计算技术研究所 | 一种自适应gpu统一染色阵列任务负载均衡方法 |
CN106651742A (zh) * | 2016-12-12 | 2017-05-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色架构图形处理器单指令多线程染色簇结构 |
CN106709860B (zh) * | 2016-12-12 | 2020-04-07 | 中国航空工业集团公司西安航空计算技术研究所 | 一种gpu统一染色处理阵列的调试结构 |
CN106776023B (zh) * | 2016-12-12 | 2021-08-03 | 中国航空工业集团公司西安航空计算技术研究所 | 一种自适应gpu统一染色阵列任务负载均衡方法 |
CN106651744B (zh) * | 2016-12-12 | 2020-01-14 | 中国航空工业集团公司西安航空计算技术研究所 | 一种低功耗gpu染色任务与统一染色阵列任务现场映射结构 |
CN106651742B (zh) * | 2016-12-12 | 2020-08-11 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色架构图形处理器单指令多线程染色簇系统 |
CN106651744A (zh) * | 2016-12-12 | 2017-05-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种低功耗gpu染色任务与统一染色阵列任务现场映射结构 |
CN106651743B (zh) * | 2016-12-12 | 2020-01-10 | 中国航空工业集团公司西安航空计算技术研究所 | 一种支持聚散功能的统一染色阵列lsu结构 |
CN108255743A (zh) * | 2017-12-06 | 2018-07-06 | 中国航空工业集团公司西安航空计算技术研究所 | 一种用于在染色内核中写回仲裁电路 |
CN108133452B (zh) * | 2017-12-06 | 2021-06-01 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色器阵列的指令发射处理电路 |
CN108133452A (zh) * | 2017-12-06 | 2018-06-08 | 中国航空工业集团公司西安航空计算技术研究所 | 一种统一染色器阵列的指令发射处理电路 |
CN108228236A (zh) * | 2017-12-06 | 2018-06-29 | 中国航空工业集团公司西安航空计算技术研究所 | 一种支持流水的高效指令发射处理电路 |
CN109191363A (zh) * | 2018-07-30 | 2019-01-11 | 芯视图(常州)微电子有限公司 | 图形处理器中适应可扩展计算单元的固定功能单元装置 |
CN109191363B (zh) * | 2018-07-30 | 2023-05-23 | 南京军微半导体科技有限公司 | 图形处理器中适应可扩展计算单元的固定功能单元装置 |
CN109118572A (zh) * | 2018-08-07 | 2019-01-01 | 芯视图(常州)微电子有限公司 | Simt 顶点和像素染色基本程序生产方法 |
CN111048156A (zh) * | 2019-11-21 | 2020-04-21 | 中国航空工业集团公司西安航空计算技术研究所 | 一种大规模染色阵列性能检测评价方法 |
CN112581351A (zh) * | 2020-12-05 | 2021-03-30 | 西安翔腾微电子科技有限公司 | 一种双发射simt染色处理单元写回单元结构及写回通路冲突检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105513003B (zh) | 2018-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105513003A (zh) | 一种图形处理器统一染色器阵列体系结构 | |
US11734010B2 (en) | Parallel slice processor having a recirculating load-store queue for fast deallocation of issue queue entries | |
US11687345B2 (en) | Out-of-order block-based processors and instruction schedulers using ready state data indexed by instruction position identifiers | |
Beck et al. | The Cydra 5 minisupercomputer: Architecture and implementation | |
US9275002B2 (en) | Tile-based processor architecture model for high-efficiency embedded homogeneous multicore platforms | |
US8615646B2 (en) | Unanimous branch instructions in a parallel thread processor | |
EP2600242A1 (en) | Method and apparatus for register file port reduction in a multithreaded processor | |
CN107810483A (zh) | 验证基于块的处理器中的跳转目标 | |
CN110249302A (zh) | 在处理器核上同时执行多个程序 | |
CN102750133A (zh) | 支持simd的32位三发射的数字信号处理器 | |
US11726912B2 (en) | Coupling wide memory interface to wide write back paths | |
US20220027194A1 (en) | Techniques for divergent thread group execution scheduling | |
CN112950449A (zh) | 经由掩膜累积提高分层深度缓冲器剔除效率 | |
CN106709858A (zh) | 一种统一染色图形处理器单指令多线程染色处理单元结构 | |
JP4589305B2 (ja) | Ilp及びtlpを利用する再構成可能なプロセッサアレイ | |
Siewiorek et al. | The architecture of supercomputers: Titan, a case study | |
CN106651742A (zh) | 一种统一染色架构图形处理器单指令多线程染色簇结构 | |
Leidel et al. | CHOMP: a framework and instruction set for latency tolerant, massively multithreaded processors | |
CN106030517B (zh) | 用于仿真共享内存架构中的长延迟操作的架构 | |
US20240111353A1 (en) | Constructing hierarchical clock gating architectures via rewriting | |
Fumero et al. | Heterogeneous Hardware | |
Becker et al. | BRAM-based function reuse for multi-core architectures in FPGAs | |
Sardashti et al. | Muli-Issue Multi-Threaded Stream Processor | |
Munshi et al. | A parameterizable SIMD stream processor | |
Schaffer et al. | Using hardware multithreading to overcome broadcast/reduction latency in an associative SIMD processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |