CN107315716A

CN107315716A - 一种用于执行向量外积运算的装置和方法

Info

Publication number: CN107315716A
Application number: CN201610266970.5A
Authority: CN
Inventors: 罗韬; 支天; 刘少礼; 陈天石; 陈云霁
Original assignee: Beijing Zhongke Cambrian Technology Co Ltd
Current assignee: Cambricon Technologies Corp Ltd; Beijing Zhongke Cambrian Technology Co Ltd
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2017-11-03
Anticipated expiration: 2036-04-26
Also published as: CN107315716B; EP3451160A1; EP3451160A4; EP3451160B1; CN111651206B; CN111651206A; US20200097520A1; WO2017185405A1; US10831861B2

Abstract

本发明提供了一种执行向量外积的运算装置及方法，装置包括存储单元、寄存器单元和向量外积运算单元，存储单元中存储有向量，寄存器单元中存储有向量存储的地址，向量外积运算单元根据配套指令在寄存器单元中获取向量地址，然后，根据该向量地址在存储单元中获取相应的向量，接着，根据获取的向量进行向量外积运算，得到运算结果。本发明将参与计算的向量数据暂存在高速暂存存储器上，使得向量外积运算过程中可以更加灵活有效地支持不同宽度的数据，提升包含向量外积应用的执行性能。

Description

一种用于执行向量外积运算的装置和方法

技术领域

本发明涉及一种向量外积运算装置及方法，用于根据向量外积运算指令执行向量外积运算。

背景技术

在向量空间范畴，对象之间的同态都是线性映射。但其实我们常会碰到“双线性映射”这种概念，比如内积就是一个双线性映射V×V→C.我们希望把“双线性”这种性质归于向量空间范畴。一个办法就是，构造一个跟V，W有关的向量空间Z，使得所有定义在V×W上的“双线性映射”都可以由“唯一”一个定义在Z上的“线性映射”来代替。这个Z就叫V和W的张量积(外积)。举例来说，向量外积a×b的计算值大小为|a|·|b|·sin<a，b>。

在已有的计算机领域应用中，与向量运算相关的应用十分普遍。以目前的热门应用领域人工智能中的主流算法机器学习算法为例，几乎所有已有的经典算法中都含有大量的向量外积运算。

在现有技术中，一种进行向量外积运算的已知方案是使用通用处理器，该方法通过通用寄存器堆和通用功能部件来执行通用指令，从而执行向量外积运算。然而，该方法的缺点之一是单个通用处理器多用于标量计算，在进行向量外积运算时运算性能较低。而使用多个通用处理器并行执行时，通用处理器之间的相互通讯又有可能成为性能瓶颈。在另一种现有技术中，使用图形处理器(GPU)来进行向量计算，其中，通过使用通用寄存器堆和通用流处理单元执行通用SIMD指令来进行向量外积运算。然而，上述方案中，GPU片上缓存太小，在进行大规模向量外积运算时需要不断进行片外数据搬运，片外带宽成为了主要性能瓶颈。在另一种现有技术中，使用专门定制的向量外积运算装置来进行向量计算，其中，使用定制的寄存器堆和定制的处理单元进行向量外积运算。然而，目前已有的专用向量外积运算装置受限于寄存器堆，不能够灵活地支持不同长度的向量外积运算。

发明内容

(一)要解决的技术问题

本发明的目的在于，提供一种向量外积运算装置及方法，解决现有技术中存在的受限于片间通讯、片上缓存不够、支持的向量长度不够灵活等问题。

(二)技术方案

本发明提供一种向量外积运算装置，用于根据向量外积运算指令执行向量外积运算，包括：

存储单元，用于存储向量；

寄存器单元，用于存储向量地址，其中，向量地址为向量在存储单元中存储的地址；

向量外积运算单元，用于获取向量外积运算指令，根据向量外积运算指令在寄存器单元中获取向量地址，然后，根据该向量地址在存储单元中获取相应的向量，接着，根据获取的向量进行向量外积运算，得到向量外积运算结果。

本发明还提供一种向量外积运算方法，用于根据向量外积运算指令执行向量外积运算，方法包括：

S1，存储向量；

S2，存储向量地址；

S3，获取向量外积运算指令，根据向量外积运算指令获取向量地址，然后，根据该向量地址获取存储的向量，接着，根据获取的向量进行向量外积运算，得到向量外积运算结果。

(三)有益效果

本发明提供的向量外积运算装置及方法，将参与计算的向量数据暂存在高速暂存存储器(Scratchpad Memory)上。在仅发送同一条指令的情况下，向量外积运算单元中可以更加灵活有效地支持不同宽度的数据，并可以解决数据存储中的相关性问题，从而提升了包含大量向量计算任务的执行性能，本发明采用的指令具有精简的格式，使得指令集使用方便、支持的向量长度灵活。

本发明可以应用于以下(包括但不限于)场景中：数据处理、机器人、电脑、打印机、扫描仪、电话、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备等各类电子产品；飞机、轮船、车辆等各类交通工具；电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机等各类家用电器；以及包括核磁共振仪、B超、心电图仪等各类医疗设备。

附图说明

图1是本发明提供的向量外积运算装置的结构示意图。

图2是本发明提供的指令集的格式示意图。

图3是本发明实施例提供的向量外积运算装置的结构示意图。

图4是本发明实施例提供的向量外积运算装置执行向量外积指令的流程图。

图5为本发明实施例提供的向量外积运算单元的结构示意图。

具体实施方式

本发明提供一种向量外积运算装置及配套指令集，包括存储单元、寄存器单元和向量外积运算单元，存储单元中存储有向量，寄存器单元中存储有向量存储的地址向量外积运算单元根据向量外积运算指令在寄存器单元中获取向量地址，然后，根据该向量地址在存储单元中获取相应的向量，接着，根据获取的向量进行向量外积运算，得到向量外积运算结果。本发明将参与计算的向量数据暂存在高速暂存存储器上，使得向量外积运算过程中可以更加灵活有效地支持不同宽度的数据，提升包含大量向量计算任务的执行性能。

图1是本发明提供的向量外积运算装置的结构示意图，如图1所示，向量外积运算装置包括：

存储单元，用于存储向量，在一种实施方式中，该存储单元可以是高速暂存存储器，能够支持不同大小的向量数据；本发明将必要的计算数据暂存在高速暂存存储器(Scratchpad Memory)上，使本运算装置在进行向量外积运算过程中可以更加灵活有效地支持不同宽度的数据。存储单元可以通过各种不同存储器件(SRAM、eDRAM、DRAM、忆阻器、3D-DRAM或非易失存储等)实现。

寄存器单元，用于存储向量地址，其中，向量地址为向量在存储单元中存储的地址；在一种实施方式中，寄存器单元可以是标量寄存器堆，提供运算过程中所需的标量寄存器，标量寄存器不只存放向量地址，还存放有标量数据。当涉及到向量与标量的运算时，向量外积运算单元不仅可以从寄存器单元中获取向量地址，还可以从寄存器单元中获取相应的标量。

向量外积运算单元，用于获取向量外积运算指令，根据向量外积运算指令在所述寄存器单元中获取向量地址，然后，根据该向量地址在存储单元中获取相应的向量，接着，根据获取的向量进行向量外积运算，得到向量外积运算结果，并将向量外积运算结果存储于存储单元中。

根据本发明的一种实施方式，向量外积运算单元包含包括加法部件、非线性运算部件和乘法部件，并且，向量外积运算单元为多流水级结构，其中，加法部件处于第一流水级，非线性运算部件处于第二流水级，乘法部件处于第三流水级。例如，在计算a×b＝|a|·|b|·sin<a，b>时，第一流水级中的加法部件用于计算|a|和|b|，第二流水级中的非线性运算部件用于计算sin<a，b>，第三流水级中的乘法部件用于计算|a|·|b|·sin<a，b>。这些部件由于处于不同的流水级，当连续串行的多条向量外积运算指令的先后次序与相应单元所在流水级顺序一致时，可以更加高效地实现这一连串向量外积运算指令所要求的操作。

根据本发明的一种实施方式，向量外积运算装置还包括：指令缓存单元，用于存储待执行的向量外积运算指令。指令在执行过程中，同时也被缓存在指令缓存单元中，当一条指令执行完之后，如果该指令同时也是指令缓存单元中未被提交指令中最早的一条指令，该指令将被提交，一旦提交，该条指令进行的操作对装置状态的改变将无法撤销。在一种实施方式中，指令缓存单元可以是重排序缓存。

根据本发明的一种实施方式，向量外积运算装置还包括：指令处理单元，用于从指令缓存单元获取向量外积运算指令，并对该向量外积运算指令进行处理后，提供给向量外积运算单元。其中，指令处理单元包括：

取指模块，用于从指令缓存单元中获取向量外积运算指令；

译码模块，用于对获取的向量外积运算指令进行译码；

指令队列，用于对译码后的向量外积运算指令进行顺序存储，考虑到不同指令在包含的寄存器上有可能存在依赖关系，用于缓存译码后的指令，当依赖关系被满足之后发射指令。

根据本发明的一种实施方式，向量外积运算装置还包括：依赖关系处理单元，用于在向量外积运算单元获取向量外积运算指令前，判断该向量外积运算指令与前一向量外积运算指令是否访问相同的向量，若是，将该向量外积运算指令存储在一存储队列中，待前一向量外积运算指令执行完毕后，将存储队列中的该向量外积运算指令提供给所述向量外积运算单元；否则，直接将该向量外积运算指令提供给所述向量外积运算单元。具体地，向量外积运算指令访问高速暂存存储器时，前后指令可能会访问同一块存储空间，为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令的数据存在依赖关系，该指令必须在存储队列内等待至依赖关系被消除。

根据本发明的一种实施方式，向量外积运算装置还包括：输入输出单元，用于将向量存储于存储单元，或者，从存储单元中获取向量外积运算结果。其中，输入输出单元可直接存储单元，负责从内存中读取向量数据或写入向量数据。

S1，存储向量；

S2，存储向量地址；

根据本发明的一种实施方式，在步骤S3之前还包括：

存储向量外积运算指令；

获取存储的向量外积运算指令；

对获取的向量外积运算指令进行译码；

对译码后的向量外积运算指令进行顺序存储。

根据本发明的一种实施方式，在步骤S3之前还包括：

判断该向量外积运算指令与前一向量外积运算指令是否访问相同的向量，若是，将该向量外积运算指令存储在一存储队列中，待前一向量外积运算指令执行完毕后，再执行步骤S3；否则，直接执行步骤S3。

根据本发明的一种实施方式，方法还包括，存储向量外积运算结果。

根据本发明的一种实施方式，步骤S1包括，将向量存储至一高速暂存存储器中。

根据本发明的一种实施方式，向量外积运算指令包括一操作码和至少一操作域，其中，所述操作码用于指示该向量运算指令的功能，操作域用于指示该向量运算指令的数据信息。

根据本发明的一种实施方式，向量外积运算包括加法运算、非线性运算和乘法运算。

根据本发明的一种实施方式，向量运算单元为多流水级结构，包括第一流水级、第二流水级和第三流水级，其中，在第一流水级执行加法运算，在第二流水级执行非线性运算，在第三流水级执行乘法运算。

根据本发明的一种实施方式，用于本发明装置的指令集采用Load/Store结构，向量外积运算单元不会对内存中的数据进行操作。本指令集采用精简指令集架构，指令集只提供最基本的向量外积运算操作，复杂的向量外积运算都由这些简单指令通过组合进行模拟，使得可以在高时钟频率下单周期执行指令。另外，本指令集同时采用定长指令，使得本发明提出的向量外积运算装置在上一条指令的译码阶段对下一条指令进行取指。

在本装置执行向量外积运算的过程中，装置取出指令进行译码，然后送至指令队列存储，根据译码结果，获取指令中的各个参数，这些参数可以是直接写在指令的操作域中，也可以是根据指令操作域中的寄存器号从指定的寄存器中读取。这种使用寄存器存储参数的好处是无需改变指令本身，只要用指令改变寄存器中的值，就可以实现大部分的循环，因此大大节省了在解决某些实际问题时所需要的指令条数。在全部操作数之后，依赖关系处理单元会判断指令实际需要使用的数据与之前指令中是否存在依赖关系，这决定了这条指令是否可以被立即发送至运算单元中执行。一旦发现与之前的数据之间存在依赖关系，则该条指令必须等到它依赖的指令执行完毕之后才可以送至运算单元执行。在定制的运算单元中，该条指令将快速执行完毕，并将结果，即生成的向量外积运算结果写回至指令提供的地址，该条指令执行完毕。

图2是本发明提供的指令集的格式示意图，如图2所示，向量外积运算指令包括1个操作码和多个操作域，其中，操作码用于指示该向量外积运算指令的功能，向量外积运算单元通过识别该操作码可进行向量外积运算，操作域用于指示该向量外积运算指令的数据信息，其中，数据信息可以是立即数或寄存器号，例如，要获取一个向量时，根据寄存器号可以在相应的寄存器中获取向量起始地址和向量长度，再根据向量起始地址和向量长度在存储单元中获取相应地址存放的向量。

指令集包含有不同功能的向量外积运算指令：

向量外积指令(TENS)。根据该指令，装置分别从高速暂存存储器的指定地址取出指定大小的向量数据，在向量计算单元中将两向量进行外积运算，并将结果写回至标量寄存堆得指定地址；

向量检索指令(VR)。根据该指令，装置从高速暂存存储器的指定地址取出指定大小的向量数据，在向量计算单元中根据指定位置取出向量中的相应元素作为输出，并将结果写回至标量寄存器堆的指定地址；

向量加载指令(VLOAD)。根据该指令，装置从指定外部源地址载入指定大小的向量数据至高速暂存存储器的指定地址；

向量存储指令(VS)。根据该指令，装置将高速暂存存储器的指定地址的指定大小的向量数据存至外部目的地址处；

向量搬运指令(VMOVE)。根据该指令，装置将高速暂存存储器的指定地址的指定大小的向量数据存至高速暂存存储器的另一指定地址处。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图3是本发明实施例提供的向量外积运算装置的结构示意图，如图3所示，装置包括取指模块、译码模块、指令队列、标量寄存器堆、依赖关系处理单元、存储队列、重排序缓存、向量外积运算单元、高速暂存器、IO直接内存存取模块；

取指模块，该模块负责从指令序列中取出下一条将要执行的指令，并将该指令传给译码模块；

译码模块，该模块负责对指令进行译码，并将译码后指令传给指令队列；

指令队列，考虑到不同指令在包含的标量寄存器上有可能存在依赖关系，用于缓存译码后的指令，当依赖关系被满足之后发射指令；

标量寄存器堆，提供装置在运算过程中所需的标量寄存器；

依赖关系处理单元，该模块处理处理指令与前一条指令可能存在的存储依赖关系。向量外积运算指令会访问高速暂存存储器，前后指令可能会访问同一块存储空间。为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令的数据存在依赖关系，该指令必须在存储队列内等待至依赖关系被消除。

存储队列，该模块是一个有序队列，与之前指令在数据上有依赖关系的指令被存储在该队列内直至存储关系被消除；

重排序缓存，指令在执行过程中，同时也被缓存在给模块中，当一条指令执行完之后，如果该指令同时也是重排序缓存中未被提交指令中最早的一条指令，该指令将被提交。一旦提交，该条指令进行的操作对装置状态的改变将无法撤销；

向量外积运算单元，该模块负责装置的所有向量外积运算，向量外积运算指令被送往该运算单元执行；

高速暂存器，该模块是向量数据专用的暂存存储装置，能够支持不同大小的向量数据；

IO直接内存存取模块，该模块用于直接访问高速暂存存储器，负责从高速暂存存储器中读取数据或写入数据。

图4是本发明实施例提供的向量外积运算装置执行向量外积指令的实施例，如图4所示，执行向量外积指令(TENS)的过程包括：

S1，取指模块取出向量外积指令，并将该指令送往译码模块。

S2，译码模块对向量外积指令译码，并将指令送往指令队列。

S3，在指令队列中，根据向量外积指令从标量寄存器堆中获取指令中四个操作域所对应的标量寄存器里的数据，包括向量vin0的起始地址、向量vin0的长度、向量vin1的起始地址、向量vin1的长度。

S4，在取得需要的标量数据后，该指令被送往依赖关系处理单元。依赖关系处理单元分析该指令与前面的尚未执行结束的指令在数据上是否存在依赖关系。该条指令需要在存储队列中等待至其与前面的未执行结束的指令在数据上不再存在依赖关系为止。

S5：依赖关系不存在后，该条向量外积指令被送往向量外积运算单元。向量外积运算单元根据所需数据的地址和长度从数据暂存器中取出需要的向量，然后在向量外积运算单元中完成外积运算。

S6，运算完成后，将结果写回至高速暂存存储器的指定地址，同时提交重排序缓存中的该向量外积指令。

图5为本发明实施例提供的向量外积运算单元的结构示意图，如图5所示，向量外积运算单元内包含加法部件、非线性运算部件、乘法部件。并且，向量外积运算单元为多流水级结构，其中，加法部件处于流水级1，非线性运算部件处于流水级2，乘法部件处于流水级3。这些单元处于不同的流水级，当连续串行的多条向量外积运算指令的先后次序与相应单元所在流水级顺序一致时，可以更加高效地实现这一连串向量外积运算指令所要求的操作。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种向量外积运算装置，用于根据向量外积运算指令执行向量外积运算，包括：

存储单元，用于存储向量；

2.根据权利要求1所述的向量外积运算装置，其特征在于，还包括：指令缓存单元，用于存储待执行的向量外积运算指令。

3.根据权利要求2所述的向量外积运算装置，其特征在于，还包括：指令处理单元，用于从指令缓存单元获取向量外积运算指令，并对该向量外积运算指令进行处理后，提供给所述向量外积运算单元。

4.根据权利要求3所述的向量外积运算装置，其特征在于，所述指令处理单元包括：

取指模块，用于从指令缓存单元中获取向量外积运算指令；

译码模块，用于对获取的向量外积运算指令进行译码；

指令队列，用于对译码后的向量外积运算指令进行顺序存储。

5.根据权利要求1所述的向量外积运算装置，其特征在于，还包括：

依赖关系处理单元，用于在所述向量外积运算单元获取向量外积运算指令前，用于在向量外积运算单元获取向量外积运算指令前，判断该向量外积运算指令与前一向量外积运算指令是否访问相同的向量，若是，将该向量外积运算指令存储在一存储队列中，待前一向量外积运算指令执行完毕后，将存储队列中的该向量外积运算指令提供给所述向量外积运算单元；否则，直接将该向量外积运算指令提供给所述向量外积运算单元。

6.根据权利要求1所述的向量外积运算装置，其特征在于，所述存储单元还用于存储所述向量外积运算结果。

7.根据权利要求6所述的向量外积运算装置，其特征在于，还包括：

输入输出单元，用于将向量存储于所述存储单元，或者，从所述存储单元中获取向量外积运算结果。

8.根据权利要求1所述的向量外积运算装置，其特征在于，所述存储单元为高速暂存存储器。

9.根据权利要求1所述的向量外积运算装置，其特征在于，所述向量外积运算指令包括一操作码和至少一操作域，其中，所述操作码用于指示该向量运算指令的功能，操作域用于指示该向量运算指令的数据信息。

10.根据权利要求9所述的向量外积运算装置，其特征在于，所述数据信息为寄存器单元编号，所述向量外积运算单元根据该寄存器单元编号访问对应的寄存器单元，并获取向量地址。

11.根据权利要求1所述的向量外积运算装置，其特征在于，所述向量外积运算单元包括加法部件、非线性运算部件和乘法部件。

12.根据权利要求11所述的向量外积运算装置，其特征在于，所述向量运算单元为多流水级结构，包括第一流水级、第二流水级和第三流水级，其中，加法部件处于第一流水级，非线性运算部件处于第二流水级，乘法部件处于第三流水级。

13.一种向量外积运算方法，用于根据向量外积运算指令执行向量外积运算，方法包括：

S1，存储向量；

S2，存储向量地址；

14.根据权利要求13所述的向量外积运算方法，其特征在于，在步骤S3之前还包括：

存储向量外积运算指令；

获取存储的向量外积运算指令；

对获取的向量外积运算指令进行译码；

对译码后的向量外积运算指令进行顺序存储。

15.根据权利要求13所述的向量外积运算方法，其特征在于，在步骤S3之前还包括：

16.根据权利要求13所述的向量外积运算方法，其特征在于，还包括，存储所述向量外积运算结果。

17.根据权利要求13所述的向量外积运算方法，其特征在于，所述步骤S1包括，将向量存储至一高速暂存存储器中。

18.根据权利要求13所述的向量外积运算方法，其特征在于，所述向量外积运算指令包括一操作码和至少一操作域，其中，所述操作码用于指示该向量运算指令的功能，操作域用于指示该向量运算指令的数据信息。

19.根据权利要求13所述的向量外积运算方法，其特征在于，所述向量外积运算包括加法运算、非线性运算和乘法运算。

20.根据权利要求19所述的向量外积运算方法，其特征在于，所述向量外积运算单元为多流水级结构，包括第一流水级、第二流水级和第三流水级，其中，在第一流水级执行加法运算，在第二流水级执行非线性运算，在第三流水级执行乘法运算。