CN110908716A

CN110908716A - 一种向量聚合装载指令的实现方法

Info

Publication number: CN110908716A
Application number: CN201911113890.6A
Authority: CN
Inventors: 郑重; 王永文; 孙彩霞; 王俊辉; 隋兵才; 倪晓强; 雷国庆; 黄立波; 郭维; 郭辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-24
Anticipated expiration: 2039-11-14
Also published as: CN110908716B

Abstract

本发明涉及微处理器设计技术领域，具体涉及一种向量聚合装载指令的实现方法，步骤包括：将向量聚合装载指令拆分为多个单元素的普通装载微操作；将拆分后微操作及相应的元素序号发往指令队列中；操作数准备好后，将单元素装载微操作发往存储流水线获取数据；将获取到的数据写入相应的数据缓存项的对应元素中；数据缓存项所有元素数据写入后，将结果数据从数据缓存写到结果总线上，向量聚合装载指令执行完毕。本发明能够有效提高向量聚合装载指令执行的性能，同时能最大限度利用普通装载指令的通路，适用于高性能乱序超标量微处理器，具有实现简单、性能高的优点。

Description

一种向量聚合装载指令的实现方法

技术领域

本发明涉及微处理器设计技术领域，具体涉及一种向量聚合装载指令的实现方法。

背景技术

为了适应应用程序的发展，提高程序执行效率，在主流指令集中都增加了多种向量扩展。充分利用向量操作的并行性可以提高系统性能。在向量扩展中，有一类向量聚合装载指令（Gather Load，记为GLoad），和普通装载指令有很大区别。如图1（a）所示，普通装载指令将存储空间中的一段连续地址的数据装载到寄存器中。而对于向量聚合装载指令，如图1（b）所示，向量的每个元素地址不同，该指令需要从存储的多个不相关的区域分别取出一个元素，并装载到寄存器对应的元素区域。

普通装载指令通常访问一个存储地址的连续区域，通常只需要一个访存操作就能完成。而向量聚合装载指令同时需要访问多个不同的存储地址，在实现上有很大的难度。为了保持微处理器设计的简洁性，可以将该指令拆分为多个微操作，每个微操作获取一个地址的数据，然后再将这些数据组装为一个寄存器宽度的数据。这样做可以最大限度利用现有的访存通路，避免额外的硬件开销。如图2所示，向量聚合装载指令为：GLoad Zd，Zn，Rm，其中Zd为目的向量寄存器，Zn为源向量寄存器，Rm为源标量寄存器；拆分后的微操作序列中，Zni表示源操作为Zn的第i个元素。

如果进行这样的微操作拆分，那么对于向量长度为4个元素的GLoad指令来说，需要拆分为7个微操作才能完成一个向量聚合装载指令的功能。这样拆分后，除了数据获取的Load操作外，还增加了3个数据转换的Perm操作，从而增加了指令执行的功耗和指令执行的延迟，导致性能下降。另外，在硬件设计上也需要增加数据转换的perm操作。

申请号为201810668398.4的中国专利文献公开了一种面向标量和向量指令混合执行的发射方法及装置，该方法可以用于向量聚合装载指令的发射和管理，但是该方法有以下三个缺点：1）向量缓冲部件微操作管理的功能和发射队列功能重复，造成资源浪费。2）由于向量缓冲部件有微操作管理的逻辑，故部件资源较大，受限于整个芯片硬件资源，向量缓冲部件无法同时支持多个向量聚合装载指令，造成多个向量聚合装载指令无法并行执行，程序性能受限。3）由于发射队列和向量缓冲部件中都有指令要发往流水线，需要额外的仲裁部件支持，并且指令之间顺序管理变复杂。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种向量聚合装载指令的实现方法，本发明能够有效提高向量聚合装载指令执行的性能，同时能最大限度利用普通装载指令的通路，适用于高性能乱序超标量微处理器，具有实现简单、性能高的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种向量聚合装载指令的实现方法，实施步骤包括：

1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作；

2）将拆分后的普通装载微操作发往指令队列中；

3）在指令队列中等待普通装载微操的源操作数准备好，在源操作数准备好后将对应的普通装载微操作发射到存储流水线中并带上向量元素序号；

4）执行单个元素的普通装载微操作；

5）判断是否执行成功，如果执行成功则跳转执行下一步；否则发射队列需要择机将该元素的访存操作重新发射到流水线中获取数据，跳转执行步骤3）；

6）查询/分配数据缓存项；

7）将获取的数据写入到数据缓存；

8）将该普通装载微操作对应的元素标记为“完成”；

9）判断全部元素获取到数据是否成立，如果尚未成立则继续等待并跳转执行步骤8）；否则，将数据缓存中的数据写出数据到结果总线；

10）在对应向量聚合装载指令的数据都写出后将数据缓存条目释放。

可选地，步骤1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作时，每个存储操作只能获取一个地址出的数据，拆分出普通装载微操作的个数等于向量长度除以向量元素大小，且拆分出向量元素个数的普通装载微操作均附带对应的向量元素序号，每个普通装载微操作获取单个元素的存储数据，拆分后的指令微操作序列不需要数据转换微操作。

可选地，步骤1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作时，拆分得到的普通装载微操作的指令格式为：

Load Zdx, Znx, Rm

上述指令表示使用向量寄存器Zn的第x个元素Znx和源操作数Rm计算出需要访存的地址，从该地址对应的存储空间中取出元素大小的数据并存放于目的寄存器Zd的第x个元素Zdx处。

可选地，步骤2）将拆分后的普通装载微操作发往指令队列中时还包括在指令队列中增加对元素序号的存储的步骤。

可选地，步骤7）将获取的数据写入到数据缓存时，所述数据缓存是指在存储流水线外增加的用于缓存单个元素的普通装载微操作获取数据的数据缓存，该数据缓存合并多个单元素数据，形成向量聚合装载指令的最终结果数据。

此外，本发明还提供一种微处理器，所述微处理器被编程或配置以执行所述向量聚合装载指令的实现方法的步骤。

和现有技术相比，本发明具有下述优点：

1、性能高。指令执行延迟短、存储操作并发度高。（1）与现有技术相比，本发明方法消除了指令拆分中的数据转换Perm操作，减少了拆分的微操作个数，微操作数的减少使得整个处理器能同时处理的有效指令数增加。同时，减少的Perm操作，缩短了向量聚合装载指令执行的延迟。（2）由于对于每个向量聚合装载指令，只需要增加寄存器宽度的数据缓存。中国专利申请号为201810668398.4的专利文献记载的方案由于向量缓冲部件设计复杂，难以支持多个向量聚合装载指令的并发执行。而本发明只需要数据缓存的项数，就能提高向量聚合装载指令执行的并发性，从而提高程序性能。

2、实现简单。相对于中国专利申请号为201810668398.4的专利文献记载的方案而言，本发明方法的指令管理简单很多，不用修改指令管理的控制部分，只需在每个指令信息中增加元素序号，同时不用额外增加复杂的向量缓冲部件和相关的仲裁部件，极大减小了实现的开销。整个指令的执行过程可以最大限度利用普通装载指令的执行通路。

附图说明

图1为现有的普通装载指令以及向量聚合装载指令的示意图，其中图1（a）为现有的普通装载指令示意图；图1（b）为现有的向量聚合装载指令示意图。

图2 为现有的向量聚合装载指令的拆分方法示意图。

图3为本发明实施例方法的基本实施流程示意图。

图4为本发明实施例方法的向量聚合装载指令的拆分方法示意图。

图5为本发明实施例方法的数据缓存机构示意图。

具体实施方式

如图3所示，本实施例向量聚合装载指令的实现方法的实施步骤包括：

2）将拆分后的普通装载微操作发往指令队列中；

4）执行单个元素的普通装载微操作；

6）查询/分配数据缓存项；

7）将获取的数据写入到数据缓存；

8）将该普通装载微操作对应的元素标记为“完成”；

本实施例中，步骤1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作时，每个存储操作只能获取一个地址出的数据，拆分出普通装载微操作的个数等于向量长度除以向量元素大小，且拆分出向量元素个数的普通装载微操作均附带对应的向量元素序号，每个普通装载微操作获取单个元素的存储数据，拆分后的指令微操作序列不需要数据转换微操作。为了充分利用现有的存储指令的通路，每个存储操作只能获取一个地址出的数据。所以需要拆分出的微操作个数等于向量长度除以向量元素大小。如图4所示，其中拆分后的微操作序列：其中Zni表示源操作为Zn的第i个元素，参见图4可知，每个微操作数信息和原来的向量聚合装载指令一致，额外带上相应的元素序号。和图2的实现方式的不同点在于本发明无需数据转换的多个Perm操作（数据转换微操作）。

本实施例中，步骤1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作时，拆分得到的普通装载微操作的指令格式为：

Load Zdx, Znx, Rm

本实施例中，步骤2）将拆分后的普通装载微操作发往指令队列中时还包括在指令队列中增加对元素序号的存储的步骤。步骤2）指令队列无需对拆分后的微操作额外的操作，只需要在指令队列中增加对元素序号的存储。而元素序号的存储通常只需要几个bit，例如对于512bit宽度的向量，在元素大小为32bit时，只有16个元素，只需要4bit就能存储元素的序号。

步骤3）在指令队列中等待普通装载微操的源操作数准备好，等待该指令的源操作数准备好后，将该微操作发射到存储流水线中，带上向量元素序号。这里向量聚合装载指令的发射的条件和普通存储操作完全相同，都需要源操作数准备好。操作数来源可以是结果总线、寄存器或者是立即数。元素在向量中的序号用于地址计算时，从源操作数中抽取相应的元素的值，同时也用于标记写结果时应该写到结果寄存器的哪个区域。

步骤4）中单个元素的执行方法和普通装载指令的执行一致，通常包括：地址计算，虚实地址转换，获取数据，写结果。这里只有地址计算的操作数来源和普通装载指令有区别，在地址计算时从向量寄存器Zn中抽取相应的元素值作为输入，计算出相应的存储地址。单个元素装载微操作执行成功指：从存储中获取到相应的数据；或者在有断言机制的向量存储指令中，断言寄存器指示该元素是非活跃的，那么无需获取数据，可以直接标示指令执行成功。

本实施例中步骤2）～步骤5）的微操作执行步骤和普通装载指令执行步骤完全相同，只需要在指令执行时带上相应的元素序号，在地址计算时从向量寄存器Zn中抽取相应的元素值作为输入即可，其余控制和数据通路都直接使用原有的普通装载指令的执行通路。

步骤6）查询/分配数据缓存项时包括在数据缓存中为该装载指令分配新数据缓存项，或者查询已分配的数据缓存项。一般来说，只需要设置少量的数据缓存项即可满足需求，通过向量聚合装载指令的目的寄存器Zd标识不同的向量聚合装载指令。

本实施例中，步骤7）将获取的数据写入到数据缓存时，所述数据缓存是指在存储流水线外增加的用于缓存单个元素的普通装载微操作获取数据的数据缓存，该数据缓存合并多个单元素数据，形成向量聚合装载指令的最终结果数据。步骤7）将获取的数据写入到对应的数据缓存中时，由于单个元素的数据无法直接写到结果总线上，所以需要进行元素数据的缓存。如图5所示，数据缓存专门为向量聚合装载指令设置，数据缓存长度和向量寄存器长度一致。单个元素的装载指令执行成功后，将数据写入到对应的数据缓存项目对应的元素位置。例如，如果当前元素序号为2，那么将对应的数据填入到图3数据缓存中的2号元素位置处。

本实施例中，步骤8）将该普通装载微操作对应的元素标记为“完成”表示该元素的数据已经获取，并存放到相应的数据缓存中。

本实施例中，步骤9）用于判断全部元素获取到数据是否成立。当数据完成标记中该条目所有元素都完成时，就可以将数据写出到数据总线上。此时指令的输出数据为数据缓存中缓存的按元素整理好的数据，是整个指令最终的输出，无需再进行数据的变换。

最终通过步骤10）释放数据缓存，向量聚合装载指令执行完毕。

此外，本实施例还提供一种微处理器，该微处理器被编程或配置以执行本实施例前述向量聚合装载指令的实现方法的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种向量聚合装载指令的实现方法，其特征在于实施步骤包括：

2）将拆分后的普通装载微操作发往指令队列中；

4）执行单个元素的普通装载微操作；

6）查询/分配数据缓存项；

7）将获取的数据写入到数据缓存；

8）将该普通装载微操作对应的元素标记为“完成”；

2.根据权利要求1所述的向量聚合装载指令的实现方法，其特征在于，步骤1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作时，每个存储操作只能获取一个地址出的数据，拆分出普通装载微操作的个数等于向量长度除以向量元素大小，且拆分出向量元素个数的普通装载微操作均附带对应的向量元素序号，每个普通装载微操作获取单个元素的存储数据，拆分后的指令微操作序列不需要数据转换微操作。

3.根据权利要求2所述的向量聚合装载指令的实现方法，其特征在于，步骤1）将向量聚合装载指令按照向量元素大小拆分为多个普通装载微操作时，拆分得到的普通装载微操作的指令格式为：

Load Zdx, Znx, Rm

4.根据权利要求1所述的向量聚合装载指令的实现方法，其特征在于，步骤2）将拆分后的普通装载微操作发往指令队列中时还包括在指令队列中增加对元素序号的存储的步骤。

5.根据权利要求1所述的向量聚合装载指令的实现方法，其特征在于，步骤7）将获取的数据写入到数据缓存时，所述数据缓存是指在存储流水线外增加的用于缓存单个元素的普通装载微操作获取数据的数据缓存，该数据缓存合并多个单元素数据，形成向量聚合装载指令的最终结果数据。

6.一种微处理器，其特征在于，所述微处理器被编程或配置以执行权利要求1～5中任意一项所述向量聚合装载指令的实现方法的步骤。