CN114116005B

CN114116005B - 基于aigpu架构的立即数数据存储方法

Info

Publication number: CN114116005B
Application number: CN202111432949.5A
Authority: CN
Inventors: 侯红朝; 葛建明; 桑永奇; 赵鹏; 王东辉; 姚飞; 仇小钢
Original assignee: Hexaflake Nanjing Information Technology Co Ltd
Current assignee: Hexaflake Nanjing Information Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-12-23
Anticipated expiration: 2041-11-29
Also published as: CN114116005A

Abstract

本发明公开了一种基于AIGPU架构的立即数数据存储方法，寄存器堆存储了AIGPU架构状态，指令从寄存器堆中读取数据，并将计算结果写入目标寄存器；计算过程中，指令使用其包含的立即数值进行计算；其特征在于增加助手指令，将助手指令与指令相结合得到复合指令，复合指令中装载临时立即数，使用临时立即数取代立即数进行指令计算。一般指令中立即数的长度都很短，而助手指令中的立即数可以比较长。本发明提出的助手指令主要用来扩展指令中的立即数，因此实现简单。

Description

基于AIGPU架构的立即数数据存储方法

技术领域

本发明涉及数据存储领域，具体是一种基于AIGPU架构的立即数数据存储方法。

背景技术

SIMT并行计算

SIMT(单指令流多线程)是一种高性能计算机架构，特别适合数据并行计算。SIMT是由nVidia公司首先引入的，是SIMD(单指令流多数据流)架构的一种扩展。

·基本执行单元是线程(thread)，多个线程可以组合成一个块(block)。一个块中的全部线程执行相同的指令序列。

·SIMT把在长向量的每个元素上进行操作的指令序列看作是是一个线程，一个块中的线程同步执行同样的指令，因此实现数据并行计算。

·SIMT中的数据计算通道也可以并发执行几个线程，每个属于不同的warp或者不同的block，每个有自己的寄存器堆。

·SIMT计算机允许单个线程的分支执行，每个线程执行的指令序列因各个线程的状态不同而不同。

SIMT对应的是数据并行编程模型，享有从任意向量到固定结构机器的灵活映射方式。出于对性能的考虑，需要减少SIMT计算中的线程分支，进而维持系统的利用率并降低功耗。SIMT架构可以通过warp切换和流处理来降低存取延迟。

AIGPU架构简介

AIGPU芯片的顶层架构如图1所示。AIGPU芯片的特点在于，

·它采用了片上虚拟存储，一种与众不同的存储系统。

·它使用了粗颗粒的计算分割与数据管理来解决数据相关性，这不同于超标量硬件机器或者codelet软件数据流。

·AIGPU粗颗粒的相关性管理方式允许使用命令来实现，为软件架构师和程序员提供了自主控制和优化程序的手段。

芯片由主机(host)及其运行时来控制。主机将需要执行的命令发送到AIGPU器件，其中的SP对命令做出分析，然后将一系列的操作交给PE和DMA执行。

AIGPU的重要特点是片上虚拟存储采用分段结构，可以直接支持张量存储，存储数据结构化而且具有明确的张量语义。一个张量一般存储在一个段中。使用数个张量的Kernel程序可以拥有数个段。一种实现是每个程序有16个段。

一个kernel可以分配到几个PEs上执行，每个PE执行部分计算并使用段的一部分。

·每个段都有自己独立的地址空间。

·每个段可以定义一个1D、2D、3D或者4D的张量存储结构。

·存储地址的构成是segment_id:RFoffset:immediate offset一个段含包含数个页。

·每个页是多维的，1D,2D,3D,或者4D；是与段的维数相同的张量。

·每个页在页表中都有一项,可以用来做地址翻译，以及检查该页是否准备完毕；在一个PE使用完该页后，将v-counter的值递减。

段存储结构–存储段结构为Kernel程序使用。

1.虚拟存储按照段(segment)来组织，每个Kernel可以使用几个段。

2.每个段可以包含数个页(page)，段内的页数可变，根据应用确定。

3.为了充分利用片上存储，页的大小是可变的，根据应用来确定。

芯片上含有页表，用来管理片上虚拟存储。典型的程序执行包括了下列步骤，

1.将片外存储上的数据搬运到片上存储

2.组建页表内容和初始状态

3.启动并执行程序

4.程序执行完毕时将结果数据写到外部存储

程序的执行步骤与经典GPU的程序执行类似，但是数据的交换是在器件的外部存储与片上存储之间进行。当然，结果数据有时也会写入到主机侧的存储上。片上虚拟存储的优点包括，

1.由程序控制在片上存储与片外存储之间的进行数据搬运，可以优化数据的存取。

2.硬件管理页表的使用。

3.数据存储分配与程序执行的动态重叠(streaming)，可以提高性能。

页表的管理和数据使用状态由SP和PE根据程序执行情况来更新。每个段内地址的计算与线性地址无关，其起始线性地址由锚点(ankor)定义，段内地址相对锚点定义，每个PE可以有自己相对的锚点。

立即数加载和助手指令Immediate temp and helper instruction

寄存器堆存储了处理器的架构状态。指令从寄存器堆中读取数据，并将计算结果写入目标寄存器里。指令也可以使用指令中包含的立即数值做来进行计算，但是立即数的大小范围受到指令长度的限制。

发明内容

本发明针对背景技术中立即数的大小范围受到指令长度的限制问题，提出了在AIGPU中，使用了一种具有短时限状态并被称作“临时立即数”(immediate temp)以及一条“助手”指令来装载立即数值。

技术方案：

一种基于AIGPU架构的立即数数据存储方法，寄存器堆存储了AIGPU架构状态，指令从寄存器堆中读取数据，并将计算结果写入目标寄存器；计算过程中，指令使用其包含的立即数值进行计算；

增加助手指令，将助手指令与指令相结合得到复合指令，复合指令中装载临时立即数，使用临时立即数取代立即数进行指令计算。

所述指令和助手指令由一个特定的标志位确定：当特定比特为0时是指令，为1时是助手指令。

作为第一种指令/助手指令结构，所述指令中包含用于指定助手指令的操作数B；所述助手指令中包含长数据的临时立即数，临时立即数长度满足程序数据计算所需的范围；

基于操作数B将指令与助手指令相结合，使用助手指令中的临时立即数取代立即数进行指令计算。

作为第二种指令/助手指令结构，所述指令中还包含：结果寄存器R_D，助手指令中的临时立即数作送入结果寄存器R_D中取代立即数进行指令计算。

第一种装载立即数的实现方法，所述使用临时立即数取代立即数进行指令计算包括以下步骤：

SA1、助手指令将变量数据写入临时立即数，临时立即数并被置位为有效；

SA2、下一条指令使用临时立即数取代指令中包含的立即数，并将临时立即数消耗，临时立即数并被置位为无效。

在另一种情况中：SA2、下一条指令中未使用临时立即数，临时立即数被置位为无效。

作为第三种指令/助手指令结构，所述指令中还包含：操作码ALU、表示立即数的操作数A、指定助手指令的操作数B、结果寄存器R_D，指令中的立即数与助手指令中的立即数复合后获得临时立即数，临时立即数送入结果寄存器R_D。

第三种装载立即数的实现方法，所述使用临时立即数取代立即数进行指令计算包括以下步骤：

SB1、助手指令读取立即数；

SB2、下一条指令读取完整的助手指令的立即数值，同时读取指令操作数A的立即数，使用这两个数据进行指令计算获得临时立即数，并送入结果寄存器R_D。

作为第四种指令/助手指令结构，所述助手指令中还包含：操作码ALU、操作数A、操作数B、结果寄存器；多个助手指令根据操作码ALU进行相应操作数的复合运算，最终获得立即数并送入结果寄存器。

所述助手指令中包含长数据的临时立即数，临时立即数写入临时立即数寄存器，临时立即数取代立即数进行指令计算。

本发明的有益效果

一般指令中立即数的长度都很短，而助手指令中的立即数可以比较长。本发明提出的助手指令主要用来扩展指令中的立即数，方法实现比较简单，提高存储效率，并且能够扩大计算的范围和精度。

此种方法也可以用来扩展其他指令，形成更复杂的复合指令。

附图说明

图1为背景技术中AIGPU顶层架构示意图

具体实施方式

下面结合实施例对本发明作进一步说明，但本发明的保护范围不限于此：

本发明提出了一种新的立即数加载机制和一条相关的(助手)指令，使用此机制可以为其他指令扩展出更多格式，极大地增加了指令的灵活性而只需做微小的硬件改动。

本发明利用助手指令与其他指令紧密耦合的方法除了可以提供更长的立即数，也可以用来构成更复杂的复合指令，是一种广义的扩展指令的方法。

装载立即数有多种方式，下面给出具体的两种实现的例子。

第一个实现的例子中，助手指令将变量数据写入临时立即数中(助手指令中含有的数据足够长)；下一条指令使用这个临时立即数来取代指令中包含的立即数并把临时立即数消耗掉。临时立即数被使用后就变成无效了。临时立即数在被助手指令写入时也同时被置位成有效的，并且认为下一条指令总是会使用这个临时值，而无论下一条指令中是否会使用立即数。因此临时立即数总是被下一条指令使用和置为无效。

立即数增长复合指令。原有指令集中的立即数位数有限，无法达到需要的立即数长度。例如原有指令长度为32位，其中的立即数部分仅为8位，无法满足计算需求。此时可以使用“助手”指令，其中的立即数部分为24位，可以满足计算需求。“助手”指令和“被助”指令可以采用如下格式，

上表中，H是助手指令的标志，类型通常为1-3比特；N是被助指令，可以是大多数算数逻辑指令(+、-、×、÷、>、＝＝、<、<<、>>等，操作码用ALU表示)，R_A是ALU指令的一个操作数，另一个操作数用标识flag来指定是助手指令中的24位立即数，结果送入寄存器R_D中。我们的复合方式是广泛的，不仅仅是一些特定指令。

第二个实现的例子中，助手指令从寄存器RF中读取源数据并写入临时立即数中。下一条指令可以读取完整的立即数值来取代指令中包含的部分立即数，同时读取RF中的操作数，用这两个数据来执行运算。

复合比较指令。许多程序中会将多个比较的结果使用逻辑操作结合起来，做为条件语句的判断条件，例如下面的条件语句，

if(A>B&&C<＝D&&E＝＝F)

x＝y+1；

else

x＝y；

上面条件包含了三个比较，其结果“与”到一起。

指令	类型	操作码	操作数A	操作数B	结果寄存器
						复合指令	2	>	R<sub>A</sub>	R<sub>B</sub>	Temp&&
复合指令	2	<＝	R<sub>C</sub>	R<sub>D</sub>	Temp&&
						结束指令	0	＝＝	R<sub>E</sub>	R<sub>F</sub>	R<sub>G</sub>

前两条比较指令的类型为2，表示其结果与可以和一条指令的结果相“与“。

助手指令可以用一个特殊的操作码标出，也可以把普通指令和助手指令用一个特定的比特来标记。使用前一种方法时，只需要一个立即数，也不需要结果寄存器，因为助手立即数是放在一个特定临时寄存器中的。使用第二种方法时，当特定比特为0时是普通指令，为1时是助手指令。

临时立即数实质上是一种扩展其他指令的方法，将临时立即数的助手指令与其他多种指令相结合可以复合出更多的指令格式，大大增加了指令的灵活性。这种助手指令方法不同于ARM和RISC-V的多长度指令集，又不同于CISC(复杂指令)的方式，应用范围更广，硬件实现也十分简单。

临时立即数助手指令方法将一条简单的助手指令下一跳指令紧密耦合，形成一条复合指令。本发明中的助手指令主要用来扩展指令中的立即数，因此实现简单。此种发方法也可以用来扩展其他指令，形成更复杂的复合指令。

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于AIGPU架构的立即数数据存储方法，寄存器堆存储了AIGPU架构状态，指令从寄存器堆中读取数据，并将计算结果写入目标寄存器；计算过程中，指令使用其包含的立即数值进行计算；

其特征在于增加助手指令，将助手指令与指令相结合得到复合指令，复合指令中装载临时立即数，使用临时立即数取代立即数进行指令计算；所述指令和助手指令由一个特定的标志位确定：当特定比特为0时是指令，为1时是助手指令；

所述指令中包含用于指定助手指令的操作数B；所述助手指令中包含长数据的临时立即数；

基于操作数B将指令与助手指令相结合，使用助手指令中的临时立即数取代立即数进行指令计算；

所述指令中还包含：操作码ALU、表示立即数的操作数A、结果寄存器R_D，指令中的立即数与助手指令中的立即数复合后获得临时立即数，临时立即数送入结果寄存器R_D；

所述使用助手指令中的临时立即数取代立即数进行指令计算包括以下步骤：

SB1、助手指令读取立即数；

2.根据权利要求1所述的方法，其特征在于所述使用助手指令中的临时立即数取代立即数进行指令计算包括以下步骤：

3.根据权利要求2所述的方法，其特征在于SA2中下一条指令中未使用临时立即数，临时立即数被置位为无效。

4.根据权利要求1所述的方法，其特征在于所述助手指令中还包含：操作码ALU、操作数A、操作数B、结果寄存器；多个助手指令根据操作码ALU进行相应操作数的复合运算，最终获得立即数并送入结果寄存器。

5.根据权利要求1所述的方法，其特征在于所述助手指令中包含长数据的临时立即数，临时立即数写入临时立即数寄存器，临时立即数取代立即数进行指令计算。