CN106651743B - 一种支持聚散功能的统一染色阵列lsu结构 - Google Patents
一种支持聚散功能的统一染色阵列lsu结构 Download PDFInfo
- Publication number
- CN106651743B CN106651743B CN201611140727.5A CN201611140727A CN106651743B CN 106651743 B CN106651743 B CN 106651743B CN 201611140727 A CN201611140727 A CN 201611140727A CN 106651743 B CN106651743 B CN 106651743B
- Authority
- CN
- China
- Prior art keywords
- request
- adl
- data
- address
- tua
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明属于集成电路技术领域,提供一种支持聚散功能的统一染色阵列LSU结构,包括:ADL(1);LSA(2);CCA(3);TUA(4);本发明用于实现染色内核与存储器之间的数据交换,可同时运行最多8个warp并行/并发执行的任务,支持地址比较合并,支持非阻塞操作,充分发挥染色器阵列的性能。
Description
技术领域
本发明属于集成电路技术领域,涉及一种支持聚散功能的统一染色阵列LSU结构。
背景技术
统一染色器阵列完成顶点、像素的统一染色功能。在统一染色器阵列中,LSU单元用于实现染色内核与存储器之间的数据交换。染色内核与存储器之间的数据交换频繁发生,LSU的性能也充分影响着整个统一染色器阵列的运行速率。这就要求LSU支持非阻塞,同时处理不同存储器的数据交换,以及对存储器进行访问前的请求合并及串并转换功能。
发明内容
本发明的目的是:
本发明提供一种支持聚散功能的统一染色阵列LSU结构,从而能够实现染色内核与存储器之间的数据交换。
本发明的技术解决方案是:
一种支持聚散功能的统一染色阵列LSU结构,包括:
ADL(1)(地址数据锁存单元);LSA(2)(LocalSRAM访问单元);CCA(3)(常量cache访问单元);TUA(4)(纹理访问单元);
ADL(1),接收外部输入的请求使能、请求模式、地址以及数据;如果请求使能有效,ADL(1)对所述请求模式进行解析,解析出请求对象和请求方式;根据所述请求对象,将从外部接收到的地址、数据以及请求方式发送给对应的LSA(2)或CCA(3)或TUA(4);ADL(1)还将LSA(2)、CCA(3)、TUA(4)返回的数据进行缓存,并向外部写回模块发起发送请求,将其写入与外部写回模块相连的寄存器文件;
LSA(2)根据ADL(1)发送的请求方式,根据对应的地址的合并规则,将接收的冲突的地址并串转换,然后产生请求发送给外部,如果所述请求方式为存储,则所述请求包含接收的所有地址和数据;如果所述请求方式为加载,则所述请求包含接收的所有地址;LSA(2)还将外部返回的数据,发送给ADL(1);
CCA(3)根据ADL(1)发送的请求方式,根据对应的地址的合并规则,将接收到的每个周期的地址缓存下来并且进行比较合并、并串转换,然后产生请求发送给外部,所述请求包含合并后的地址;CCA(3)还将外部返回的数据,发送给ADL(1);
TUA(4)根据ADL(1)发送的请求方式,将地址数据按照纹理单元要求合并打包,然后产生请求发送给外部,所述请求包含打包后的地址数据;TUA(4)还将外部返回的数据,发送给ADL(1)。
本发明的优点是:本发明提供的一种支持聚散功能的统一染色阵列LSU结构,用于实现染色内核与存储器之间的数据交换,可同时运行最多8个warp并行/并发执行的任务,支持地址比较合并,支持非阻塞操作,充分发挥染色器阵列的性能。
附图说明
图1为本发明的方法模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图和具体实施例对本发明的技术方案做进一步详细描述。
一种支持聚散功能的统一染色阵列LSU结构,如图1所示,包括:
ADL(1)(地址数据锁存单元);LSA(2)(LocalSRAM访问单元);CCA(3)(常量cache访问单元);TUA(4)(纹理访问单元);
ADL(1),接收外部输入的请求使能、请求模式、地址以及数据;如果请求使能有效,ADL(1)对所述请求模式进行解析,解析出请求对象和请求方式;根据所述请求对象,将从外部接收到的地址、数据以及请求方式发送给对应的LSA(2)或CCA(3)或TUA(4);ADL(1)还将LSA(2)、CCA(3)、TUA(4)返回的数据进行缓存,并向外部写回模块发起发送请求,将其写入与外部写回模块相连的寄存器文件;
LSA(2)根据ADL(1)发送的请求方式,根据对应的地址的合并规则,将接收的冲突的地址并串转换,然后产生请求发送给外部,如果所述请求方式为存储,则所述请求包含接收的所有地址和数据;如果所述请求方式为加载,则所述请求包含接收的所有地址;LSA(2)还将外部返回的数据,发送给ADL(1);
CCA(3)根据ADL(1)发送的请求方式,根据对应的地址的合并规则,将接收到的每个周期的地址缓存下来并且进行比较合并、并串转换,然后产生请求发送给外部,所述请求包含合并后的地址;CCA(3)还将外部返回的数据,发送给ADL(1);
TUA(4)根据ADL(1)发送的请求方式,将地址数据按照纹理单元要求合并打包,然后产生请求发送给外部,所述请求包含打包后的地址数据;TUA(4)还将外部返回的数据,发送给ADL(1)。
本发明实施例的一种支持聚散功能的统一染色阵列LSU结构,包括ADL(地址数据锁存单元);LSA(LocalSRAM访问单元);CCA(常量cache访问单元);TUA(纹理访问单元)。
ADL单元负责接收外部输入的请求、地址和数据,并将其锁存,其具有8个warp、每个warp有4个周期的现场锁存。有ADL的支持,LSU单元在一个请求尚未完成前,依然可以接受其他7个warp的请求,而不会丢失。ADL将请求根据模式不同进行仲裁,将指令和地址数据信息发送给LSA、CCA、TUA三个处理模块。ADL还负责将三个处理模块的数据返回进行缓存,并向外部写回模块发起发送请求,将其写入寄存器文件。
LSA单元负责外部LocalSRAM资源的访问。ADL将一个warp的请求发送给LSA。LSA单元根据指令以及对应的地址的合并规则,将读写请求并串转换,对LocalSRAM进行相应的读写操作,并将读写完成后的数据返回给ADL。
CCA单元负责外部Ccache资源的访问。当前设计中,由ADL将所有warp对Ccache的load请求发送给CCA。CCA单元根据地址的合并规则以及Ccache的空闲状态,将读请求并串转换,对Ccache进行相应的读操作,并且支持非阻塞。CCA将一个warp的读回数据收集齐后发送给ADL。
TUA单元负责外部纹理单元资源的访问。ADL将所有warp对纹理单元的LD请求发送给TUA。TUA单元根据地址的合并规则以及纹理单元的空闲状态,将读请求并串转换,对纹理单元进行相应的读操作,并且支持非阻塞。TUA将一个warp的读回数据收集齐后发送给ADL。
LSU采用非阻塞设计,即当前warp(如warp1)有LD/ST操作尚未完成时,依然可以接受后续warp(如warp2)的LD/ST操作,并且warp2可以先于warp1返回。
1)因LocalSRAM不涉及缺失,故在LSA单元设计中,对多个warp的请求进行串行处理,而非并发分时处理(同时只可处理1个warp);
2)Ccache涉及cache缺失,故CCA单元设计中,对多个warp的请求可并发处理,即一个warp的请求尚未完成前,可进行下一个warp请求的处理(分时进行)(同时可处理8个warp);
3)纹理单元每拍可接受一个Quad的纹理访问请求,故TUA单元的读写控制单元访问请求发送时,将其设计成多个warp串行进行(同时只可处理1个warp);而数据由纹理单元返回时,因纹理单元单元涉及cache缺失,故将读写控制单元的数据返回通路设计成并发处理,即一个warp的数据未完全返回时,需可以接收其他warp的数据(同时可处理8个warp)。
LSU可访问的存储器包括:LocalSRAM和Ccache。其中Ccache中缓存的是VP、PP中的内容。
各类存储器访问所需地址宽度,与各存储器的深度有关。目前:
1)LocalSRAM深度均为64,有效地址6bit即可;
2)VP为312*32b,PP为60*32b,宽度设计成128b后,分别为78*128b和15*128b,有效地址7bit、4bit即可;
3)纹理阵列(可以看成存储器)的访问需使用32bit地址;
统一起见,LocalSRAM、ConstantCache的访问,统一采用8bit有效地址,纹理访问,采用32bit有效地址。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细地说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (1)
1.一种支持聚散功能的统一染色阵列LSU结构,其特征在于,包括:
ADL(1)(地址数据锁存单元);LSA(2)(LocalSRAM访问单元);CCA(3)(常量cache访问单元);TUA(4)(纹理访问单元);
ADL(1),接收外部输入的请求使能、请求模式、地址以及数据;如果请求使能有效,ADL(1)对所述请求模式进行解析,解析出请求对象和请求方式;根据所述请求对象,将从外部接收到的地址、数据以及请求方式发送给对应的LSA(2)或CCA(3)或TUA(4);ADL(1)还将LSA(2)、CCA(3)、TUA(4)返回的数据进行缓存,并向外部写回模块发起发送请求,将其写入与外部写回模块相连的寄存器文件;
LSA(2)根据ADL(1)发送的请求方式,根据对应的地址的合并规则,将接收的冲突的地址并串转换,然后产生请求发送给外部,如果所述请求方式为存储,则所述请求包含接收的所有地址和数据;如果所述请求方式为加载,则所述请求包含接收的所有地址;LSA(2)还将外部返回的数据,发送给ADL(1);
CCA(3)根据ADL(1)发送的请求方式,根据对应的地址的合并规则,将接收到的每个周期的地址缓存下来并且进行比较合并、并串转换,然后产生请求发送给外部,所述请求包含合并后的地址;CCA(3)还将外部返回的数据,发送给ADL(1);
TUA(4)根据ADL(1)发送的请求方式,将地址数据按照纹理单元要求合并打包,然后产生请求发送给外部,所述请求包含打包后的地址数据;TUA(4)还将外部返回的数据,发送给ADL(1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611140727.5A CN106651743B (zh) | 2016-12-12 | 2016-12-12 | 一种支持聚散功能的统一染色阵列lsu结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611140727.5A CN106651743B (zh) | 2016-12-12 | 2016-12-12 | 一种支持聚散功能的统一染色阵列lsu结构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106651743A CN106651743A (zh) | 2017-05-10 |
CN106651743B true CN106651743B (zh) | 2020-01-10 |
Family
ID=58824350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611140727.5A Active CN106651743B (zh) | 2016-12-12 | 2016-12-12 | 一种支持聚散功能的统一染色阵列lsu结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106651743B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581351A (zh) * | 2020-12-05 | 2021-03-30 | 西安翔腾微电子科技有限公司 | 一种双发射simt染色处理单元写回单元结构及写回通路冲突检测方法 |
CN112579174B (zh) * | 2020-12-05 | 2023-01-31 | 西安翔腾微电子科技有限公司 | 一种多周期双发射指令可发射的检测电路及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713837A (zh) * | 2009-09-23 | 2012-10-03 | 辉达公司 | 用于管理并行高速缓存层级的指令 |
CN105513003A (zh) * | 2015-12-11 | 2016-04-20 | 中国航空工业集团公司西安航空计算技术研究所 | 一种图形处理器统一染色器阵列体系结构 |
CN105550979A (zh) * | 2015-12-11 | 2016-05-04 | 中国航空工业集团公司西安航空计算技术研究所 | 一种高数据通量纹理Cache层次结构 |
-
2016
- 2016-12-12 CN CN201611140727.5A patent/CN106651743B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713837A (zh) * | 2009-09-23 | 2012-10-03 | 辉达公司 | 用于管理并行高速缓存层级的指令 |
CN105513003A (zh) * | 2015-12-11 | 2016-04-20 | 中国航空工业集团公司西安航空计算技术研究所 | 一种图形处理器统一染色器阵列体系结构 |
CN105550979A (zh) * | 2015-12-11 | 2016-05-04 | 中国航空工业集团公司西安航空计算技术研究所 | 一种高数据通量纹理Cache层次结构 |
Also Published As
Publication number | Publication date |
---|---|
CN106651743A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200150872A1 (en) | Method for Accessing Extended Memory, Device, and System | |
Farshin et al. | Make the most out of last level cache in intel processors | |
KR102402672B1 (ko) | 컴퓨팅 시스템 및 컴퓨팅 시스템에서 연산들을 처리하는 방법 | |
US9535842B2 (en) | System and method for performing message driven prefetching at the network interface | |
US10700968B2 (en) | Optimized function assignment in a multi-core processor | |
EP2808783B1 (en) | Smart cache and smart terminal | |
US11275721B2 (en) | Adaptive table placement in NUMA architectures | |
JP2018018513A (ja) | メモリシステム、プロセシングシステム、及びメモリスタックを動作させる方法 | |
CN103019955B (zh) | 基于pcram主存应用的内存管理方法 | |
US20170161200A1 (en) | Implementing selective cache injection | |
CN106651743B (zh) | 一种支持聚散功能的统一染色阵列lsu结构 | |
EP3662376B1 (en) | Reconfigurable cache architecture and methods for cache coherency | |
US9495217B2 (en) | Empirical determination of adapter affinity in high performance computing (HPC) environment | |
US20070198879A1 (en) | Method, system, and medium for providing interprocessor data communication | |
CN103019657B (zh) | 支持数据预取与重用的可重构系统 | |
US7774513B2 (en) | DMA circuit and computer system | |
US10915470B2 (en) | Memory system | |
CN102542525B (zh) | 一种信息处理设备以及信息处理方法 | |
US11899970B2 (en) | Storage system and method to perform workload associated with a host | |
CN111061997A (zh) | 面向稀疏矩阵向量乘的数据传输方法及dma传输装置 | |
US20220342835A1 (en) | Method and apparatus for disaggregation of computing resources | |
KR100737741B1 (ko) | 다차원 데이터 선인출 캐쉬를 이용한 메모리 장치 및 그제어 방법 | |
US20200242032A1 (en) | Cache and method for managing cache | |
CN106776377B (zh) | 一种用于并发读取多个存储单元的地址合并处理电路 | |
CN110647357B (zh) | 同步多线程处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |