CN106651743B

CN106651743B - 一种支持聚散功能的统一染色阵列lsu结构

Info

Publication number: CN106651743B
Application number: CN201611140727.5A
Authority: CN
Inventors: 田泽; 韩一鹏; 牛少平; 魏艳艳; 任向隆; 齐宇心
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2020-01-10
Anticipated expiration: 2036-12-12
Also published as: CN106651743A

Abstract

本发明属于集成电路技术领域，提供一种支持聚散功能的统一染色阵列LSU结构，包括：ADL(1)；LSA(2)；CCA(3)；TUA(4)；本发明用于实现染色内核与存储器之间的数据交换，可同时运行最多8个warp并行/并发执行的任务，支持地址比较合并，支持非阻塞操作，充分发挥染色器阵列的性能。

Description

一种支持聚散功能的统一染色阵列LSU结构

技术领域

本发明属于集成电路技术领域，涉及一种支持聚散功能的统一染色阵列LSU结构。

背景技术

统一染色器阵列完成顶点、像素的统一染色功能。在统一染色器阵列中，LSU单元用于实现染色内核与存储器之间的数据交换。染色内核与存储器之间的数据交换频繁发生，LSU的性能也充分影响着整个统一染色器阵列的运行速率。这就要求LSU支持非阻塞，同时处理不同存储器的数据交换，以及对存储器进行访问前的请求合并及串并转换功能。

发明内容

本发明的目的是：

本发明提供一种支持聚散功能的统一染色阵列LSU结构，从而能够实现染色内核与存储器之间的数据交换。

本发明的技术解决方案是：

一种支持聚散功能的统一染色阵列LSU结构，包括：

ADL(1)(地址数据锁存单元)；LSA(2)(LocalSRAM访问单元)；CCA(3)(常量cache访问单元)；TUA(4)(纹理访问单元)；

ADL(1)，接收外部输入的请求使能、请求模式、地址以及数据；如果请求使能有效，ADL(1)对所述请求模式进行解析，解析出请求对象和请求方式；根据所述请求对象，将从外部接收到的地址、数据以及请求方式发送给对应的LSA(2)或CCA(3)或TUA(4)；ADL(1)还将LSA(2)、CCA(3)、TUA(4)返回的数据进行缓存，并向外部写回模块发起发送请求，将其写入与外部写回模块相连的寄存器文件；

LSA(2)根据ADL(1)发送的请求方式，根据对应的地址的合并规则，将接收的冲突的地址并串转换，然后产生请求发送给外部，如果所述请求方式为存储，则所述请求包含接收的所有地址和数据；如果所述请求方式为加载，则所述请求包含接收的所有地址；LSA(2)还将外部返回的数据，发送给ADL(1)；

CCA(3)根据ADL(1)发送的请求方式，根据对应的地址的合并规则，将接收到的每个周期的地址缓存下来并且进行比较合并、并串转换，然后产生请求发送给外部，所述请求包含合并后的地址；CCA(3)还将外部返回的数据，发送给ADL(1)；

TUA(4)根据ADL(1)发送的请求方式，将地址数据按照纹理单元要求合并打包，然后产生请求发送给外部，所述请求包含打包后的地址数据；TUA(4)还将外部返回的数据，发送给ADL(1)。

本发明的优点是：本发明提供的一种支持聚散功能的统一染色阵列LSU结构，用于实现染色内核与存储器之间的数据交换，可同时运行最多8个warp并行/并发执行的任务，支持地址比较合并，支持非阻塞操作，充分发挥染色器阵列的性能。

附图说明

图1为本发明的方法模块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图和具体实施例对本发明的技术方案做进一步详细描述。

一种支持聚散功能的统一染色阵列LSU结构，如图1所示，包括：

本发明实施例的一种支持聚散功能的统一染色阵列LSU结构，包括ADL(地址数据锁存单元)；LSA(LocalSRAM访问单元)；CCA(常量cache访问单元)；TUA(纹理访问单元)。

ADL单元负责接收外部输入的请求、地址和数据，并将其锁存，其具有8个warp、每个warp有4个周期的现场锁存。有ADL的支持，LSU单元在一个请求尚未完成前，依然可以接受其他7个warp的请求，而不会丢失。ADL将请求根据模式不同进行仲裁，将指令和地址数据信息发送给LSA、CCA、TUA三个处理模块。ADL还负责将三个处理模块的数据返回进行缓存，并向外部写回模块发起发送请求，将其写入寄存器文件。

LSA单元负责外部LocalSRAM资源的访问。ADL将一个warp的请求发送给LSA。LSA单元根据指令以及对应的地址的合并规则，将读写请求并串转换，对LocalSRAM进行相应的读写操作，并将读写完成后的数据返回给ADL。

CCA单元负责外部Ccache资源的访问。当前设计中，由ADL将所有warp对Ccache的load请求发送给CCA。CCA单元根据地址的合并规则以及Ccache的空闲状态，将读请求并串转换，对Ccache进行相应的读操作，并且支持非阻塞。CCA将一个warp的读回数据收集齐后发送给ADL。

TUA单元负责外部纹理单元资源的访问。ADL将所有warp对纹理单元的LD请求发送给TUA。TUA单元根据地址的合并规则以及纹理单元的空闲状态，将读请求并串转换，对纹理单元进行相应的读操作，并且支持非阻塞。TUA将一个warp的读回数据收集齐后发送给ADL。

LSU采用非阻塞设计，即当前warp(如warp1)有LD/ST操作尚未完成时，依然可以接受后续warp(如warp2)的LD/ST操作，并且warp2可以先于warp1返回。

1)因LocalSRAM不涉及缺失，故在LSA单元设计中，对多个warp的请求进行串行处理，而非并发分时处理(同时只可处理1个warp)；

2)Ccache涉及cache缺失，故CCA单元设计中，对多个warp的请求可并发处理，即一个warp的请求尚未完成前，可进行下一个warp请求的处理(分时进行)(同时可处理8个warp)；

3)纹理单元每拍可接受一个Quad的纹理访问请求，故TUA单元的读写控制单元访问请求发送时，将其设计成多个warp串行进行(同时只可处理1个warp)；而数据由纹理单元返回时，因纹理单元单元涉及cache缺失，故将读写控制单元的数据返回通路设计成并发处理，即一个warp的数据未完全返回时，需可以接收其他warp的数据(同时可处理8个warp)。

LSU可访问的存储器包括：LocalSRAM和Ccache。其中Ccache中缓存的是VP、PP中的内容。

各类存储器访问所需地址宽度，与各存储器的深度有关。目前：

1)LocalSRAM深度均为64，有效地址6bit即可；

2)VP为312*32b，PP为60*32b，宽度设计成128b后，分别为78*128b和15*128b，有效地址7bit、4bit即可；

3)纹理阵列(可以看成存储器)的访问需使用32bit地址；

统一起见，LocalSRAM、ConstantCache的访问，统一采用8bit有效地址，纹理访问，采用32bit有效地址。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细地说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种支持聚散功能的统一染色阵列LSU结构，其特征在于，包括：