CN115169541A

CN115169541A - 一种张量、向量、标量计算加速和数据调度系统

Info

Publication number: CN115169541A
Application number: CN202210986917.8A
Authority: CN
Inventors: 郝子宇; 李宏亮; 陈左宁; 王迪; 王吉军; 谭弘兵; 吴智
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-10-11

Abstract

一种张量、向量、标量计算加速和数据调度系统，属于高性能计算技术领域。本发明包括：标量处理单元：用于取指和译码，以及发送指令；向量处理单元：用于接收来自标量处理单元的向量指令，完成向量类型数据的调度和计算；张量处理单元：用于接收来自标量处理单元的张量指令，完成张量类型数据的调度和计算；多端口本地数据存储单元：用于存储不同处理单元处理的数据，并支持不同处理单元对自身处理数据的同时读写；多功能直接内存访问单元：用于实现内存到各个功能单元之间的数据通信；在线远程存储访问单元：用于实现不同处理单元间数据的直接交互。本发明能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。

Description

一种张量、向量、标量计算加速和数据调度系统

技术领域

本发明涉及高性能计算技术领域，尤其涉及一种张量、向量、标量计算加速和数据调度系统。

背景技术

当前，神经网络模型规模、训练/推理数据集越来越大，所需算力急剧增加，计算复杂度也不断提升。神经网络处理器既需不断提升训练和推理的算力，又要提供更加灵活的可控性。另一方面，科学计算领域也具有各种类型计算，例如爱因斯坦标记法。爱因斯坦标记法包含丰富的标量、向量、张量操作类型，支持广泛的科学计算表示。

现有技术中，英伟达的GPU（包括V100、A100等）存在以下缺陷：同类型的算力无法并行运行（例如必须做完BF16类型的运算，才能进行FP32类型的运算），限制了性能的进一步开发；由于商业考量，只提供CUDA编程接口，没有为程序员提供更底层和更详细的控制接口，限制了程序员算法设计。

谷歌的TPU（包括TPUv1、TPUv2、TPUv3等）存在以下缺陷：张量、向量、标量计算单元实现为大规模粗粒度的部件，对某些类型计算效率低；TPU处理器，尤其是训练类TPU未上市，同时，没有为程序员提供更底层和更详细的控制接口，限制了程序员算法设计。

综上所述，现有技术对于复杂算法中张量计算、向量计算、标量计算的算力和数据调度灵活性较差，无法发挥神经网络处理器的最佳性能。

发明内容

本发明的目的是为了解决上述现有技术存在的问题，提供一种张量、向量、标量计算加速和数据调度系统，其能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。

本发明的目的是通过以下技术方案实现的：

一种张量、向量、标量计算加速和数据调度系统，包括：

标量处理单元：用于取指和译码，以及把不同类型的控制指令发送给相应功能单元；同时完成标量类型数据的调度和计算；

向量处理单元：用于接收来自标量处理单元的向量指令，完成向量类型数据的调度和计算；

张量处理单元：用于接收来自标量处理单元的张量指令，完成张量类型数据的调度和计算；

多端口本地数据存储单元：包含多个读写端口和多个子存储单元，读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立，用于存储不同处理单元处理的数据，并支持不同处理单元对自身处理数据的同时读写；

多功能直接内存访问单元：用于实现内存到各个功能单元之间的数据通信，还用于支持在线的数据转置；

在线远程存储访问单元：用于实现片上或片间的不同张量/向量/标量处理单元间数据的直接交互。

本发明通过统一取指、译码，并把不同类型的控制指令发送给相应的功能单元，各个单元完全异步，从而大大提高算力。并且，系统中设置有多端口本地数据存储单元和多个访问单元，使得片上或片间的处理单元之间能够实现灵活的数据调度。

作为本发明优选，所述标量处理单元包括：

标量计算单元，通过指令缓存获取指令，通过读写指令直接访问内存，并完成标量类型数据的计算；

标量寄存器，通过所述在线远程存储访问单元，访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元；通过标量数据本地存储访问单元访问本地的多端口本地存储单元；

标量数据本地存储访问单元，实现所述标量寄存器与多端口本地存储单元之间的数据交互，并完成各种数据类型的转换。

作为本发明优选，所述向量处理单元包括：

向量计算单元，用于接收来自标量处理单元的向量指令，完成向量类型数据的计算；

向量寄存器，通过所述在线远程存储访问单元，访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元；通过向量数据本地存储访问单元访问本地的多端口本地存储单元；

向量数据本地存储访问单元，实现所述向量寄存器与多端口本地存储单元之间的数据交互，并完成各种数据类型的转换。

作为本发明优选，所述张量处理单元包括：

张量计算单元，用于接收来自标量处理单元的张量指令，完成标量类型数据的计算；

张量缓存，通过所述在线远程存储访问单元访问片上或片间的其他张量/向量/标量处理单元的张量缓存及多端口本地数据存储单元；通过张量数据本地存储访问单元访问本地的多端口本地存储单元；

张量数据本地存储访问单元，实现所述张量缓存与多端口本地存储单元之间的数据交互，并完成各种数据类型的转换。

作为本发明优选，所述张量计算单元包括多个微核，所述微核是张量计算单元的最基本计算单元，完成与应用算法相关不可再分的计算。

作为本发明优选，每个所述子存储单元具有独立的读写端口，以及独立的全局编址。

作为本发明优选，各个所述子存储单元之间的地址连续。

本发明的优点是：可以有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。

附图说明

图1为本发明一种张量、向量、标量计算加速和数据调度系统的示意图；

图2为本发明中标量处理单元的示意图；

图3为本发明中向量处理单元的示意图；

图4为本发明中标量/向量处理单元的示意图；

图5为本发明中张量处理单元的示意图；

图6为本发明中张量计算单元的示意图；

图7为本发明中多端口本地数据存储单元的示意图。

具体实施方式

下面将结合附图和具体实施方式对本发明做进一步的详细说明。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的说明：

TVSU：Tensor，Vector， Scalar processing Unit，张量/向量/标量处理单元。

SU：Scalar processing Unit，标量处理单元。

VU：Vector processing Unit，向量处理单元。

TU：Tensor processing Unit，张量处理单元。

mDMA：multi-function Direct Memory Access，多功能直接内存访问。

mmpLDM：marionette multi-port Local Data Memory，提线木偶式多端口本地数据存储。

onRMA：on-line Remote Memory Access，在线远程存储访问。

sLMA：scalar Local Memory Access，标量数据本地存储访问。

vLMA：vector Local Memory Access，向量数据本地存储访问。

tLMA：tensor Local Memory Access，张量数据本地存储访问。

ICache：Instruction Cache，指令缓存。

本发明提供一种张量、向量、标量计算加速和数据调度系统，整个系统由分布在片上或片间的多个TVSU构成，每个TVSU的结构如图1所示，包括：

标量处理单元：具有简单的多取指、多译码、多发射指令流水线；支持RISC类型指令集，用于实现张量/向量/标量处理单元的取指、译码，以及把不同类型的控制指令发送给其他功能单元（例如向量处理单元、张量处理单元、mmpLDM、mDMA、onRMA等），还用于与内存、本地数据存储单元以及其他TVSU的标量寄存器和本地数据存储单元进行数据交互；

向量处理单元：用于接收来自标量处理单元的向量指令，完全非阻塞式运行，向量指令包含在指令集中；还用于与本地数据存储单元以及其他TVSU的向量寄存器和本地数据存储单元进行数据交互；

张量处理单元：用于接收来自标量处理单元的张量指令，完全非阻塞式运行，张量指令包含在指令集中；还用于与本地数据存储单元以及其他张量/向量/标量处理单元的张量缓存和本地数据存储单元进行数据交互；同时，某些应用算法还可以利用张量处理单元计算模式，完成更加复杂的计算，例如HASH算法、蒙哥马利模乘算法等；

多端口本地数据存储单元mmpLDM：如图7所示，包含多个读写端口和多个内部子存储单元，读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立，每个端口在同一时刻只能对应该存储单元内部单个子存储单元；其他单元可通过某一端口操作某一子存储单元；该存储单元的各子存储单元统一管理，既可独立调度又可统一调度。

整个单元用于实现神经网络模型训练和推理、爱因斯坦标记法等计算的各种优化算法，例如不同子存储单元之间可实现双缓冲/多缓冲功能，支持软件/算法流水；不同子存储单元存储不同类型的数据，例如LDM1存储模型参数、LDM2存储训练/推理数据、LDM3存储训练/推理结果。并可支持不同处理单元对自身处理数据的同时读写；每个读写mmpLDM的功能单元（如标量处理单元、向量处理单元、张量处理单元、多功能直接内存访问单元、在线远程存储访问单元）都具有一个mmpLDM端口，mmpLDM也可通过onRMA被其他TVSU访问。

同时，每个子存储单元都具有独立的读/写端口，每个子存储单元具有独立的全局编址，通过数据地址来区分对不同子存储单元的访问。并且，各个子存储单元之间的地址连续，例如mmpLDM具有两个子存储单元LDM1、LDM2，LDM1容量128KB、LDM2容量128KB，LDM1的起始地址为0xB00000000000，LDM1的起始地址为0xB00000020000，因此，可把所有子存储单元作为连续的控制使用。当然，各个子存储单元的容量可不同。

在线远程存储访问单元onRMA：可直接读写其他标量处理单元、向量处理单元或张量处理单元中的各类寄存器、缓存、mmpLDM，以及直接读写本地的各类寄存器、缓存、mmpLDM，实现不同标量处理单元、向量处理单元、张量处理单元内数据的直接交互。

多功能直接内存访问单元mDMA：用于数据转置、广播、多播等功能，支持粗粒度的数据重用；支持内存到TVSU之间的数据通信，包括广播、多播、单播、数据转置等数据；数据访问模式与TVSU之间的算法相互配合，利用不同层次的数据重用性，例如，广播使得数据在所有TVSU之间重用，多播使得数据在某些TVSU之间重用。支持在线的数据转置功能，降低了片上的数据转置开销、提升数据访问性能。

具体的，如图2所示，所述标量处理单元SU包括：

标量计算单元，通过ICache获取指令，指令集包含对所有部件的控制指令；使用Load/Store指令通过gLS单元直接访问内存，并完成标量类型数据的计算，其计算性能与向量处理单元和张量处理单元相匹配；

标量寄存器，通过所述在线远程存储访问单元，访问片上或片间的其他TVSU的向量寄存器及mmpLDM；通过标量数据本地存储访问单元访问本地的mmpLDM；

标量数据本地存储访问单元sLMA，实现所述标量寄存器与mmpLDM之间的数据交互，并完成各种数据类型的转换，例如单精度浮点与半精度浮点的转换、单精度浮点与半字整形的转换等。

整个标量处理单元SU的启动、暂停、停止等控制由神经网络处理器的控制核心完成，其访问数据有以下三种方式：第一种是使用Load/Store指令通过gLS单元直接访问内存；第二种是通过sLMA访问mmpLDM；第三种是通过onRMA访问其他TVSU的标量寄存器和mmpLDM，以配合整个系统实现数据的灵活调度。

如图3所示，所述向量处理单元VU具体包括：

向量计算单元，用于接收来自标量处理单元的向量指令，完成向量类型数据的计算，计算性能与张量处理单元相匹配，例如向量处理单元的计算性能是张量处理单元的1/32或者1/16等，支持神经网络模型训练和推理、爱因斯坦标记法运算等；

向量寄存器，通过所述在线远程存储访问单元，访问片上或片间的其他TVSU的向量寄存器及mmpLDM；通过标量数据本地存储访问单元访问本地的mmpLDM；通过向量数据本地存储访问单元访问本地的mmpLDM；

向量数据本地存储访问单元vLMA，用于实现向量寄存器到mmpLDM的交互，同时完成各种数据类型的转换，例如单精度浮点与半精度浮点的转换、单精度浮点与半字整形的转换等；还用于完成数据的重新布局，例如把mmpLDM中连续的16个半字重新放置到向量寄存器的16个分量中。

整个向量处理单元VU的启动、暂停、停止等控制由神经网络处理器的控制核心完成，其访问数据有以下两种方式：第一种是通过vLMA访问mmpLDM；第二种是通过onRMA访问其他TVSU的向量寄存器和mmpLDM，以配合整个系统实现数据的灵活调度。并且，在实际运用中，可以将向量处理单元VU耦合到标量处理单元SU中，形成SVU，具体结构如图4所示。

如图5所示，所述向量处理单元TU具体包括：

张量计算单元，用于接收来自标量处理单元的张量指令，用于完成张量计算，或者张量形式的计算（例如HASH算法、蒙哥马利模乘算法等），充分利用数据和计算的空间局部性和时间局部性；支持神经网络模型训练和推理、爱因斯坦标记法运算等，计算性能与向量处理单元相匹配，例如张量处理单元的计算性能是向量处理单元的32倍或者16倍等；张量计算单元中的最基本计算单元是微核，如图6所示，用于完成与应用算法相关不可再分的计算，例如张量处理单元中的乘加部件、或者HASH算法的轮函数、模乘等。

张量缓存，通过所述在线远程存储访问单元访问片上或片间的其他TVSU的张量缓存和mmpLDM；通过张量数据本地存储访问单元访问本地的mmpLDM；

整个张量处理单元TU的启动、暂停、停止等控制由神经网络处理器的控制核心完成；其访问数据有以下两种方式：第一种是通过tLMA访问mmpLDM；第二种是通过onRMA访问其他TVSU的张量缓冲和mmpLDM，以配合整个系统实现数据的灵活调度。

最后，本发明可作为更大计算部件的基本单元，构建性能更高的计算部件和神经网络处理器。

以上所述，仅为本发明较佳的具体实施方式，该具体实施方式是基于本发明整体构思下的一种实现方式，而且本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种张量、向量、标量计算加速和数据调度系统，其特征在于，包括：

2.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统，其特征在于，所述标量处理单元包括：

3.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统，其特征在于，所述向量处理单元包括：

4.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统，其特征在于，所述张量处理单元包括：

张量计算单元，用于接收来自标量处理单元的张量指令，完成张量类型数据的计算；

5.根据权利要求4所述的一种张量、向量、标量计算加速和数据调度系统，其特征在于，所述张量计算单元包括多个微核，所述微核是张量计算单元的最基本计算单元，完成与应用算法相关不可再分的计算。

6.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统，其特征在于，每个所述子存储单元具有独立的读写端口，以及独立的全局编址。

7.根据权利要求6所述的一种张量、向量、标量计算加速和数据调度系统，其特征在于，各个所述子存储单元之间的地址连续。