CN114281414A - Aigpu架构中urf寄存器的数据写入方法 - Google Patents
Aigpu架构中urf寄存器的数据写入方法 Download PDFInfo
- Publication number
- CN114281414A CN114281414A CN202111646826.1A CN202111646826A CN114281414A CN 114281414 A CN114281414 A CN 114281414A CN 202111646826 A CN202111646826 A CN 202111646826A CN 114281414 A CN114281414 A CN 114281414A
- Authority
- CN
- China
- Prior art keywords
- thread
- register
- urf
- data
- simt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000010187 selection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Executing Machine-Instructions (AREA)
Abstract
本发明公开了一种AIGPU架构中URF寄存器的数据写入方法,其特征在于通过设置指令,将SIMT线程寄存器的数据直接写入URF寄存器;所述指令规定:‑SIMT线程寄存器A,‑URF寄存器C,‑线程i。选择线程i将其SIMT线程寄存器A中的数据直接写入URF寄存器C中。本发明提出的一条专用的指令可以将数据直接从SIMT线程寄存器搬到URF寄存器中,而无需经由存储器转运。
Description
技术领域
本发明涉及数据存储领域,具体是一种AIGPU架构中URF寄存器的数据写入方法。
背景技术
SIMT并行计算
SIMT(单指令流多线程)是一种高性能计算机架构,特别适合数据并行计算。SIMT是由nVidia公司首先引入的,是SIMD(单指令流多数据流)架构的一种扩展。
·基本执行单元是线程(thread),多个线程可以组合成一个块(block)。一个块中的全部线程执行相同的指令序列。
·SIMT把在长向量的每个元素上进行操作的指令序列看作是是一个线程,一个块中的线程同步执行同样的指令,因此实现数据并行计算。
·SIMT中的数据计算通道也可以并发执行几个线程,每个属于不同的warp或者不同的block,每个有自己的寄存器堆。
·SIMT计算机允许单个线程的分支执行,每个线程执行的指令序列因各个线程的状态不同而不同。
SIMT对应的是数据并行编程模型,享有从任意向量到固定结构机器的灵活映射方式。出于对性能的考虑,需要减少SIMT计算中的线程分支,进而维持系统的利用率并降低功耗。SIMT架构可以通过warp切换和流处理来降低存取延迟。
AIGPU架构简介
AIGPU芯片的顶层架构如图1所示。AIGPU芯片的特点在于,
·它采用了片上虚拟存储,一种与众不同的存储系统。
·它使用了粗颗粒的计算分割与数据管理来解决数据相关性,这不同于超标量硬件机器或者codelet软件数据流。
·AIGPU粗颗粒的相关性管理方式允许使用命令来实现,为软件架构师和程序员提供了自主控制和优化程序的手段。
芯片由主机(host)及其运行时来控制。主机将需要执行的命令发送到AIGPU器件,其中的SP对命令做出分析,然后将一系列的操作交给PE和DMA执行。
AIGPU的重要特点是片上虚拟存储采用分段结构,可以直接支持张量存储,存储数据结构化而且具有明确的张量语义。一个张量一般存储在一个段中。使用数个张量的Kernel程序可以拥有数个段。一种实现是每个程序有16个段。
一个kernel可以分配到几个PEs上执行,每个PE执行部分计算并使用段的一部分。
·每个段都有自己独立的地址空间。
·每个段可以定义一个1D、2D、3D或者4D的张量存储结构。
·存储地址的构成是segment_id:RFoffset:immediate offset一个段含包含数个页。
·每个页是多维的,1D,2D,3D,或者4D;是与段的维数相同的张量。
·每个页在页表中都有一项,可以用来做地址翻译,以及检查该页是否准备完毕;在一个PE使用完该页后,将v-counter的值递减。
段存储结构–存储段结构为Kernel程序使用。
1.虚拟存储按照段(segment)来组织,每个Kernel可以使用几个段。
2.每个段可以包含数个页(page),段内的页数可变,根据应用确定。
3.为了充分利用片上存储,页的大小是可变的,根据应用来确定。
芯片上含有页表,用来管理片上虚拟存储。典型的程序执行包括了下列步骤,
1.将片外存储上的数据搬运到片上存储
2.组建页表内容和初始状态
3.启动并执行程序
4.程序执行完毕时将结果数据写到外部存储
程序的执行步骤与经典GPU的程序执行类似,但是数据的交换是在器件的外部存储与片上存储之间进行。当然,结果数据有时也会写入到主机侧的存储上。片上虚拟存储的优点包括,
1.由程序控制在片上存储与片外存储之间的进行数据搬运,可以优化数据的存取。
2.硬件管理页表的使用。
3.数据存储分配与程序执行的动态重叠(streaming),可以提高性能。
页表的管理和数据使用状态由SP和PE根据程序执行情况来更新。每个段内地址的计算与线性地址无关,其起始线性地址由锚点(ankor)定义,段内地址相对锚点定义,每个PE可以有自己相对的锚点。
Uniform寄存器堆
Uniform寄存器堆(URF)是一个PE中所有线程共享的,它的存储延迟与线程内的寄存器堆一样,但是与线程内寄存器不同的是它对所有线程是一致的。在图形渲染应用中,uniform变量存储了所有顶点的共性属性,如灯光、变换矩阵、全局背景光等,在语义上就是对所有线程均可寻址的。URF可以被任何指令用作寄存器操作数,且对于所有线程是一致的。URF的寄存器一般都存储只读变量。
从SIMT RF搬动数据到URF
结合图2,一个SIMT处理器PE中运行多个并行线程(Thread-0,Thread-1,...,Thread-n),每个线程有自己私有寄存器堆,每个堆有数十至数百个寄存器。寄存器堆可以是多端口的,也可以分成多块的。每个寄存器堆含有一个缓冲存储(buffer),当PE与片上存储或高速缓存之间交换数据时要通过缓冲存储。
每个线程有自己的私有存储,一个PE中的所有线程共享一个比较大的uniform寄存器堆。这个uniform寄存器堆提供所有线程共享的操作数据。一般地,uniform寄存器堆的数据是只读的,以避免多个线程同时写入一个uniform寄存器的冲突。如果必须要交换数据,那就只能每次选用一个线程来写,或者只写入一些特殊数据,例如谓词值。
在当前的SIMT架构下,不能把SIMT线程寄存器的数据直接搬到URF寄存器,这是因为多个线程对应一组URF寄存器堆的关系。通常需要将SIMT线程寄存器内容搬到存储器中,然后再从存储器中搬到URF寄存器中。这种方式很不方便,且效率很低。
发明内容
本发明针对背景技术中存在的问题,提出了一种AIGPU架构中URF寄存器的数据写入方法。
技术方案:
一种AIGPU架构中URF寄存器的数据写入方法,通过设置指令,将SIMT线程寄存器的数据直接写入URF寄存器;所述指令规定:
-SIMT线程寄存器A,
-URF寄存器C,
-线程i
选择线程i将其SIMT线程寄存器A中的数据直接写入URF寄存器C中。
作为一种线程i的选择方法:
指令给定某个谓词序号,选取所有线程中对应谓词值为真的线程,取其中线程号thread_id最小的线程作为线程i。
作为另一种线程i的选择方法:
使用一个立即数imm来选择:线程thread_id与imm相等的那个线程作为线程i
作为第三种线程i的选择方法:
用URF寄存器的内容来做选择:指令给出一个立即数imm,读取寄存器URF[imm]的数据x,然后选择那个thread_id==x的线程作为线程i。
优选的,程序调试时,确定线程i后将其SIMT线程寄存器A中的数据存入URF,URF所存储数据通过配置寄存器接口自动返回主机。
优选的,SIMT线程寄存器A中的数据为线程i的全部谓词值。
优选的,SIMT线程寄存器A中的数据为线程i被指定的某个寄存器的值。
本发明的有益效果
本发明提出的一条专用的指令可以将数据直接从SIMT线程寄存器搬到URF寄存器中,而无需经由存储器转运。具有以下效果:
1.多种选择线程的方式,给应用编程带来很好的便利性。
2.多种线程内容选取方式,对应用有较好的灵活性。
3.由于无需将线程信息导出到存储系统,而仅在处理器核心部分实现,避免了数据到存储系统再返回回来所带来的大延迟;同时减小了对存储系统带宽的压力,使整体系统性能得到提升。
附图说明
图1为背景技术中AIGPU顶层架构示意图
图2为背景技术中.SIMT处理器寄存器堆和对外链接示意图
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:
本发明提出了一种AIGPU架构中URF寄存器的数据写入方法,通过设置指令,将SIMT线程寄存器的数据直接写入URF寄存器;所述指令规定:
-SIMT线程寄存器A,
-URF寄存器C,
-线程i
选择线程i将其SIMT线程寄存器A中的数据直接写入URF寄存器C中。
以下给出几个实例,对本申请提案中线程i的确定方法进行说明。
实施例1:
指令表述:selectpred#6,...
指令中给定谓词序号为“6”,假定线程t1,t3,t7,t15,t21的谓词p[6]为真,选择其中线程thread_id最小的t1作为线程i。
实施例2:
指令表述:select imm#8,...
指令中给定立即数imm为“8”,线程t8作为线程i。
实施例3:
指令表述:select URF#9,...
假定URF[9]的数据值是21,则线程t21作为线程i。
以下给出几个实例,对本申请提案中写入URF寄存器C中的数据进行说明。
实施例4:
指令表述:select pred#6,URF#8
select pred#6:指令中给定谓词序号为“6”,假定线程t1,t3,t7,t15,t21的谓词p[6]为真,选择其中线程thread_id最小的t1作为线程i。
URF#8:线程t1的全部谓词p[0…7]写入URF[8]。
该实施例中,指令可以指定选取线程i的全部谓词值并将其写入URF[C]寄存器。
实施例5:
指令表述:select all reg#6,thread#9,URF#8
select all reg#6:选择全部线程并将其中R[6]的值全部送到存储系统。
thread#9:选择线程t9作为线程i(选择方式可以是实施例1-3中的任一种)。
URF#8:将线程t9传输的寄存器R[6]值写入URF[8]中。
该实施例中,将全部线程的RF[A]值(如同读指令那样)都读出并送给存储子系统,当这些数据到达后,按照指令中规定的选择方法选择其中一个数据,并返回给处理器流水线,写入到URF[C]寄存器中。
实施例6:
指令表述:select pred#6,reg#6,URF#8
select pred#6:全部线程的p[6]谓词被送到存储系统。
reg#6:假定线程t1,t3,t7,t15,t21的谓词p[6]为真,线程t1被选择作为线程i。
URF#8:选取t1送出的R[6]数据并写入URF[8]。
该实施例将全部线程中的谓词寄存器值读出来并送给存储子系统,就像读指令那样。当这些值到达后,按照前面提出的谓词选择方法选出一个线程,然后将选出的数据回写到URF[C]寄存器中。
实施例7:
指令表述:select imm#9reg#6,HOST
选择线程t9,读取寄存器R[6]的内容,返回给主机
该实施例考虑的是程序调试,主机给定线程号、寄存器或者谓词并读取值,然后回写到主机端。
程序调试的过程:主机通过特定的配置寄存器接口来配置所要查询的线程索引及其某个寄存器索引,硬件电路完成所需内容的送出并暂存于特殊保留的URF127,而后进一步地该数据会通过配置寄存器接口自动返回给主机。
传统方案中采用送到存储系统再返回的方式,至少需要近100个时钟周期(store到L2的数据通路延迟,加上再从L2 load返回的数据通路延迟,考虑到系统数据通路仲裁等开销);在某些场景,比如读写冲突等情况,延迟还会增大。本发明所公开方案避免了这些延迟,提高了系统性能。
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (7)
1.一种AIGPU架构中URF寄存器的数据写入方法,其特征在于通过设置指令,将SIMT线程寄存器的数据直接写入URF寄存器;所述指令规定:
-SIMT线程寄存器A,
-URF寄存器C,
-线程i
选择线程i将其SIMT线程寄存器A中的数据直接写入URF寄存器C中。
2.根据权利要求1所述的方法,其特征在于线程i的选择方法为:
指令给定某个谓词序号,选取所有线程中对应谓词值为真的线程,取其中线程号thread_id最小的线程作为线程i。
3.根据权利要求1所述的方法,其特征在于线程i的选择方法为:
使用一个立即数imm来选择:线程thread_id与imm相等的那个线程作为线程i。
4.根据权利要求1所述的方法,其特征在于线程i的选择方法为:
用URF寄存器的内容来做选择:指令给出一个立即数imm,读取寄存器URF[imm]的数据x,然后选择那个thread_id==x的线程作为线程i。
5.根据权利要求1所述的方法,其特征在于程序调试时,确定线程i后将其SIMT线程寄存器A中的数据存入URF,URF所存储数据通过配置寄存器接口自动返回主机。
6.根据权利要求1或5所述的方法,其特征在于SIMT线程寄存器A中的数据为线程i的全部谓词值。
7.根据权利要求1或5所述的方法,其特征在于SIMT线程寄存器A中的数据为线程i被指定的某个寄存器的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646826.1A CN114281414B (zh) | 2021-12-29 | 2021-12-29 | Aigpu架构中urf寄存器的数据写入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646826.1A CN114281414B (zh) | 2021-12-29 | 2021-12-29 | Aigpu架构中urf寄存器的数据写入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114281414A true CN114281414A (zh) | 2022-04-05 |
CN114281414B CN114281414B (zh) | 2022-12-27 |
Family
ID=80878385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111646826.1A Active CN114281414B (zh) | 2021-12-29 | 2021-12-29 | Aigpu架构中urf寄存器的数据写入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114281414B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110078415A1 (en) * | 2009-09-28 | 2011-03-31 | Richard Craig Johnson | Efficient Predicated Execution For Parallel Processors |
CN102576369A (zh) * | 2009-08-24 | 2012-07-11 | 阿玛得斯两合公司 | 对不可预测工作负荷展示可预测应答时间的连续全扫描数据存储表和分布式数据仓库 |
CN103218208A (zh) * | 2011-12-06 | 2013-07-24 | 辉达公司 | 用于实施成形的存储器访问操作的系统和方法 |
CN110008009A (zh) * | 2017-11-14 | 2019-07-12 | 辉达公司 | 在运行时绑定常量以提高资源利用率 |
CN112241290A (zh) * | 2019-07-16 | 2021-01-19 | 辉达公司 | 用于在并行处理单元中有效执行数据规约的技术 |
-
2021
- 2021-12-29 CN CN202111646826.1A patent/CN114281414B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576369A (zh) * | 2009-08-24 | 2012-07-11 | 阿玛得斯两合公司 | 对不可预测工作负荷展示可预测应答时间的连续全扫描数据存储表和分布式数据仓库 |
US20110078415A1 (en) * | 2009-09-28 | 2011-03-31 | Richard Craig Johnson | Efficient Predicated Execution For Parallel Processors |
CN103218208A (zh) * | 2011-12-06 | 2013-07-24 | 辉达公司 | 用于实施成形的存储器访问操作的系统和方法 |
CN110008009A (zh) * | 2017-11-14 | 2019-07-12 | 辉达公司 | 在运行时绑定常量以提高资源利用率 |
CN112241290A (zh) * | 2019-07-16 | 2021-01-19 | 辉达公司 | 用于在并行处理单元中有效执行数据规约的技术 |
Non-Patent Citations (1)
Title |
---|
M.M. GONCALVES: "Improving GPU register file reliability with a comprehensive ISA extension", 《MICROELECTRONICS RELIABILITY》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114281414B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9830156B2 (en) | Temporal SIMT execution optimization through elimination of redundant operations | |
RU2427895C2 (ru) | Оптимизированная для потоков многопроцессорная архитектура | |
Colwell et al. | A VLIW architecture for a trace scheduling compiler | |
US20120066668A1 (en) | C/c++ language extensions for general-purpose graphics processing unit | |
TWI498819B (zh) | 執行成型記憶體存取作業的系統和方法 | |
Guide | Cuda c programming guide | |
US20100115233A1 (en) | Dynamically-selectable vector register partitioning | |
KR20130010442A (ko) | 가상 gpu | |
US8615770B1 (en) | System and method for dynamically spawning thread blocks within multi-threaded processing systems | |
US20220043770A1 (en) | Neural network processor, chip and electronic device | |
CN114218153B (zh) | 用于存储管理的方法、介质、程序产品、系统和装置 | |
CN114610394B (zh) | 指令调度的方法、处理电路和电子设备 | |
CN116762068A (zh) | 地址映射感知任务分配机制 | |
US20090133022A1 (en) | Multiprocessing apparatus, system and method | |
CN114281414B (zh) | Aigpu架构中urf寄存器的数据写入方法 | |
CN114201444B (zh) | 用于存储管理的方法、介质、程序产品、系统和装置 | |
US8959497B1 (en) | System and method for dynamically spawning thread blocks within multi-threaded processing systems | |
CN114035980B (zh) | 基于便笺存储器来共享数据的方法和电子装置 | |
CN114218152B (zh) | 流处理方法、处理电路和电子设备 | |
Leback et al. | Tesla vs. xeon phi vs. radeon a compiler writer’s perspective | |
Vijaykumar et al. | A Framework for Accelerating Bottlenecks in GPU Execution with Assist Warps | |
CN117501254A (zh) | 使用近存储器计算为复杂操作提供原子性 | |
CN114035847A (zh) | 用于并行执行核心程序的方法和装置 | |
KR102644951B1 (ko) | 산술 논리 장치 레지스터 시퀀싱 | |
CN114116005B (zh) | 基于aigpu架构的立即数数据存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070897 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |