CN116521611A - 一种深度学习处理器的泛化架构设计方法 - Google Patents
一种深度学习处理器的泛化架构设计方法 Download PDFInfo
- Publication number
- CN116521611A CN116521611A CN202310441634.XA CN202310441634A CN116521611A CN 116521611 A CN116521611 A CN 116521611A CN 202310441634 A CN202310441634 A CN 202310441634A CN 116521611 A CN116521611 A CN 116521611A
- Authority
- CN
- China
- Prior art keywords
- data
- vector
- matrix
- deep learning
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013461 design Methods 0.000 title claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 107
- 230000008569 process Effects 0.000 claims abstract description 26
- 230000008520 organization Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 181
- 239000011159 matrix material Substances 0.000 claims description 94
- 230000015654 memory Effects 0.000 claims description 63
- 238000003079 width control Methods 0.000 claims description 2
- 230000008707 rearrangement Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 239000010410 layer Substances 0.000 description 9
- 238000003491 array Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 101100403145 Danio rerio mul1a gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
- G06F15/781—On-chip cache; Off-chip memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
一种深度学习处理器的泛化架构设计方法,本发明涉及深度学习处理器的泛化架构设计方法。本发明的目的是为了解决现有深度学习处理器在智能IoT场景中不能兼容深度学习以外的其他计算密集的任务,导致芯片面积的增加、成本的增加、利用率的偏差、计算能效低的问题。过程为:架构包含任务解析的通用处理器与加速计算的深度学习加速器。当进行深度学习卷积计算任务时,通用处理器解析数据在片外的组织形式,将数据加载至片上缓存Buffer,由序列控制器按卷积顺序将数据加载至MAC阵列进行计算。当进行密集计算任务时,增加重排模块,基于最优的算子计算形式将Buffer数据重排至片上缓存Buffer2中,并将Buffer2数据传输至MAC阵列中进行计算。本发明用于深度学习处理器领域。
Description
技术领域
本发明涉及深度学习处理器的泛化架构设计方法。
背景技术
为了满足深度学习在无人驾驶、人脸识别等应用领域的性能要求,专用的深度学习处理器相对于通用处理器提供了显著的高能效深度学习处理,成为了现代计算系统的关键计算引擎之一,被广泛集成到端、边、云计算系统中。然而,在很多实际应用场景特别是智能IoT场景中,应用不仅包含深度学习计算任务,也包含了很多其他计算密集的任务,如信号处理、数据分析等,为每一种不同类型的任务定制专用加速器,尽管理论上可以达到更高的计算能效,但是也会带来很多副作用。一方面,更多的异构加速器会直接导致芯片面积的增加,同时增加了系统互联设计的需求和复杂度,从而引起芯片成本的增加。另一方面,不同的应用配置下,计算需求的差异必然会导致专用加速器利用率的偏差。而各个专用加速器往往是独立的,加速器的很多硬件资源如片上缓存、计算阵列等,占据较大的芯片面积和功耗,却又无法跨越加速器复用,也会损害芯片的计算能效和成本。
发明内容
本发明的目的是为了解决现有深度学习处理器在智能IoT场景中不能兼容深度学习以外的其他计算密集的任务,导致芯片面积的增加、成本的增加、利用率的偏差、计算能效低的问题,而提出一种深度学习处理器的泛化架构设计方法。
一种深度学习处理器的泛化架构设计方法具体过程为:
步骤1:系统分为软件部分和硬件部分;
软件部分即通用处理器,通用处理器负责对硬件编程;
硬件部分即深度学习加速器,深度学习加速器负责硬件计算;
通用处理器包括深度学习卷积计算任务和密集型计算任务;
通用处理器读取数据,解析数据在片外存储器的组织形式;
当进行密集型计算任务时,进入步骤2;
当进行深度学习卷积计算任务时,进入步骤3;
步骤2:解析密集型计算任务,得到最优的算子计算形式,将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中;
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
步骤3:将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,缓存Buffer中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器。
本发明的有益效果为:
本发明是对深度学习处理器改进,提出一种深度学习处理器的泛化架构设计方法,使得缓存上的数据在片上通过指令重新排列,并按照基本计算算子定义送入到乘加阵列中进行计算。
本发明以应用广泛的深度学习处理器为核心,尝试泛化其计算能力,使其在支持深度学习处理的基础上,增加更多相似的常见计算任务如信号处理、数据分析等,在保障深度学习处理计算性能的前提下,使其可以被多种不同的计算任务共享,提高专用处理器的硬件资源利用率,降低智能IoT芯片的面积和成本。
本发明实现最少增加硬件开销的前提下,泛化深度学习处理器的访存功能,实现更多类型的密集计算。本发明在支持原有硬件支持的固定位宽的深度学习卷积计算的同时,还支持可变位宽的深度学习卷积计算,支持可转换为向量级,矩阵级乘加类型的可变位宽计算,支持多层嵌套时层间数据可拼接填充类型的可变位宽计算。相比于通用处理器,其计算速度提高,相比于专用处理器,节省了对应部分的硬件开销。
附图说明
图1为泛化设计架构图;
图2为可变位宽乘加拼接计算框图;
图3为可变位宽乘加拼接序列控制框图,Wt为wt是卷积的权重weight缩写,da为卷积的数据缩写data,p0是mul0乘法器的乘法计算结果,p1是mul1乘法器的乘法计算结果,p2是mul2乘法器的乘法计算结果,P3为mul3乘法器的乘法计算结果;
图4为可编程访存硬件结构图,prog_addr_start是可编程访存的起始地址;prog_burst_lenth是突发传输长度,就是发送连续地址时候的数据量,比如起始地址是10突发长度是3就会传输101112这三个地址的数据;DQclk是一个D触发器,是硬件电路的基本单元结构;rearranged_en为存内再重排的使能;
图5为存内再重排硬件结构图,rearranged_code为重排的译码坐标,code为位段,code是7位的,高三位选择哪一条数据,低四位选择这个数据的某一部分;rearranged_code_en为译码使能,只有他有效,这个位置的数据才会被重排;zero为0;
图6为单元内填充硬件结构图,padding value是要填充的值,比如刚才fft的那个1;reg_bit是可变位宽的位宽选择,比如是4bit 8bit还是16bit;padding en就是填充使能;Dat_in就是输入数据;Dat_out就是输出的数据;
图7a为深度学习加速器缓存数据加载时序图;
图7b为深度学习加速器MAC阵列数据计算时序图;
图8为FFT密集计算向量转换图,Wr N表示旋转因子,xm(p)表示一组蝶形运算其中一个输入数据,xm(q)表示一组蝶形运算另一个输入数据,xm+1(p)表示一组蝶形运算其中一个输出数据,xm+1(q)表示一组蝶形运算另一个输出数据;
图9为16点FFT蝶形运算图,WN n表示旋转因子,Xm表示输入的信号数据,()里为对应坐标,Dout为最终输出的频域数据;
图10为FFT的向量向量乘映射图,wr代表旋转因子的实部,wi代表旋转因子的虚部,pr表示一组蝶形运算其中一个输入数据的实部,pi表示一组蝶形运算其中一个输入数据的虚部,qr表示一组蝶形运算另一个输入数据的实部,qi表示一组蝶形运算另一个输入数据的虚部;
图11为FFT的可编程访存编程逻辑图,padding-1为就是把左上角那个0填充成1。
具体实施方式
具体实施方式一:本实施方式一种深度学习处理器的泛化架构设计方法具体过程为:具体过程为:
通用处理器在读入深度学习计算或者其他密集计算的时候会把要计算的对应的数据读取进来,然后把这些数据按照编译好的顺序发送到片外DRAM中,通用处理器解析的就是这些数据;
步骤1:系统分为软件部分和硬件部分;
软件部分即通用处理器(通用处理器如Cortex-M3、PicoRV32),通用处理器负责对硬件编程;
硬件部分即深度学习加速器(深度学习加速器如NVDLA、DianNao),深度学习加速器负责硬件计算;
通用处理器包括深度学习卷积计算任务和密集型计算任务;
通用处理器读取数据,解析数据在片外存储器(DRAM,DRAM是访问时间长的片外存储器)的组织形式;
通用处理器将读取的数据按照顺序排列好,比如对于二维三维或者更高维度的数据会将其打平成一维的数据存储在内存中。软件端需要根据各个数据在存储器的位置来让硬件知道需要排列的数据在哪里。解析的也就是这个数据。
当进行密集型计算任务时,进入步骤2;
当进行深度学习卷积计算任务时,进入步骤3;
步骤2:解析密集型计算任务,得到最优的算子计算形式,将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中(若重排后的数据存在相同,则只取相同数据中一个数据重排,重排后数据加载到片上缓存Buffer2中相同位置;);
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
步骤3:将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,缓存Buffer中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器。
比如:输出的维度是3*3*2的三维数据,但数据在内存中是一维的,需要将三维数据按照一维进行排列,需要定义具体一个完整的w以及w*h在内存中的距离,就是一个三维数据打平成一维数据的过程。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤2:解析密集型计算任务,得到最优的算子计算形式,将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中(若重排后的数据存在相同,则只取相同数据中一个数据重排,重排后数据加载到片上缓存Buffer2中相同位置;);
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
具体过程为:
密集型计算任务的算子包括向量向量乘,矩阵向量乘,矩阵矩阵乘和向量向量扩充乘;
向量向量乘a1×b1完成向量和向量的乘积计算,向量a1或者b1的维数可编程控制,所述向量a1或者b1的维数指向量a1或者向量b1中数据的数量;
矩阵向量乘完成矩阵和向量的乘积计算,矩阵的向量数(一个矩阵有几列就有几个向量)可编程控制,向量的维数可编程控制,所述向量的维数指向量中数据的数量;
矩阵矩阵乘完成矩阵和矩阵的乘积计算,矩阵的向量数以及矩阵中向量的维数可编程控制;
向量向量扩充乘完成矩阵矩阵乘的计算结果的对角线相加,矩阵的向量数以及矩阵中向量的维数可编程控制;
若一组向量向量乘a1×b1,a2×b2,…,an×bn中向量a1,a2,an不相同且向量b1,b2,bn不相同,向量向量乘a1×b1,a2×b2,…,an×bn还是向量向量乘a1×b1,a2×b2,…,an×bn;
若一组向量向量乘a1×b1,a2×b2,…,an×bn中向量a1,a2,an相同或向量b1,b2,bn相同,则将相同的向量(向量a1,a2,an)提取出来,另一组不相同的向量(向量b1,b2,bn)拼接转换成矩阵,向量向量乘变成矩阵向量乘;
若一组向量向量乘a1×b1,a2×b2,…,an×bn中向量a1,a2,an相同且向量b1,b2,bn相同,则将一组相同的向量(向量a1,a2,an)提取出来,另一组相同的向量(向量b1,b2,bn)拼接转换成矩阵,向量向量乘变成矩阵向量乘;
若一组矩阵向量乘A1×b1,A2×b2,…,An×bn中矩阵A1、A2、An相同,矩阵A1、A2、An提取出来,将向量b1、b2、bn(向量b1、b2、bn相同或不同都都拼接成矩阵)(比如A1、A2、An都相同,就变成A1×b1,A1×b2,…,A1×bn,然后把A1提取出来,就变成A1×(b1,b2,…,bn),(b1,b2,…,bn)就是由b1,b2,…,bn拼接出来的矩阵)拼接转换成矩阵,矩阵向量乘变成矩阵矩阵乘;
A1、A2、An表示矩阵,b1、b2、bn表示向量;
若一个矩阵矩阵乘A×B的计算结果的对角线相加,得到向量向量扩充乘;
B1、B2、Bn表示矩阵;
即得到确定密集型计算任务在硬件计算映射时最优的算子计算形式;
将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中(若重排后的数据存在相同,则只取相同数据中一个数据重排,重排后数据加载到片上缓存Buffer2中相同位置;);
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器。
生成算子、访存、输出指令;
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中,具体过程为:
基于密集计算对应的密集公式将片上缓存Buffer的数据拆成最优的算子计算形式;
将拆成的最优的算子计算形式加载到片上缓存Buffer2中。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤3:将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,缓存Buffer中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
缓存Buffer2中数据通过序列控制传输到MAC阵列中;
具体过程为:
步骤31、将密集型计算任务的算子转换成深度学习卷积计算任务中的序列控制形式;
步骤32、序列控制模块将缓存Buffer中数据按照深度学习卷积计算任务中的序列控制形式加载出来然后传输到MAC阵列中。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤31、将密集型计算任务的算子转换成深度学习卷积计算任务中的序列控制形式;具体过程为:
密集型计算任务的算子包括向量向量乘,矩阵向量乘,矩阵矩阵乘和向量向量扩充乘;
通用的深度学习加速器包含一个MAC阵列,一个周期一个MAC单元加载一个数据的一个卷积核,将MAC阵列转换成向量向量乘;
一个MAC阵列包括多个MAC单元;
通用的深度学习加速器包含一个MAC阵列,一个周期多个MAC单元中每个MAC阵列加载同一个数据的不同卷积核,将MAC阵列转换成矩阵向量乘;
通用的深度学习加速器包含一个MAC阵列,多个周期多个MAC单元加载不同数据的不同卷积核,将MAC阵列转换成矩阵矩阵乘;
通用的深度学习加速器包含一个MAC阵列,多个周期多个MAC单元加载不同数据的不同卷积核,一组矩阵矩阵乘的计算结果的对角线相加,将MAC阵列转换成向量向量扩充乘。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述深度学习卷积计算任务中包括可变位宽的控制指令;
所述密集型计算任务中包括可变位宽的控制指令。
对于深度学习卷积计算和密集型计算,会由于数据的重要性以及计算效率而对位宽有不同的要求。对于数据较为重要的部分可能会采用较高精度的位宽计算,对于数据重要性一般但要求计算效率的部分可能会采用较低精度的位宽计算。对于深度学习卷积计算以及密集型计算都会存在类似的要求以及应用环境。
比如:在原来8位数据支持的基础上,引入4bit、8bit、16bit三种位宽形式,通过可变位宽的控制指令选择混合位宽的组合方式。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述MAC为乘法累加运算(Multiply Accumulate,MAC);
MAC阵列为多个乘法累加运算单元组成的阵列,矩阵矩阵乘需要多个MAC单元,即MAC阵列才能完成;
MAC阵列是4bit的MAC阵列,对于不同的位宽组合是通过4bit拼接得到的。
比如4bit*8bit可以拆分成两个4bit*4bit的乘法器进行计算。
其它步骤及参数与具体实施方式一至六之一相同。
要进行计算的数据的位宽不同,比如我们要计算一个卷积,就是输入特征数据data和权重数据weight的乘法累加计算,这里可能规定data是4位的,weight是8位的。然后在存储器方面,不同的位宽在存储器中都是紧密排列的,比如存储器是64位带宽的,那4位的data就会存16个,8位的weight就会存8个,但这个排列情况软件端不需要解析,只需要知道数据要求的位宽即可,硬件会根据解析出来的位宽要求读取对应存储器中的数据。
所述数据在片外存储器的组织形式为:
连续组织方式、链接组织方式、索引组织方式;
所述密集型计算任务为:信号处理、数据分析、数据压缩等;
信号处理指FFT快速傅里叶变换,FIR数字滤波器;数据分析指KNN分类算法,数据压缩指DCT离散余弦变换,RNN循环神经网络;
所述深度学习卷积计算任务为Ai深度学习里边的一个典型的计算形式,主要就是输入特征数据data和权重数据weight进行卷积计算,也就是对应位置数据相乘最后累加到一起。所以深度学习处理器卷积部分相当于有一针对卷积数据流的乘法累加器,就是做向量乘计算的阵列;
连续组织方式又称为连续分配方式,要求每一个文件分配一个相邻的盘块;
优点:顺序访问容易:访问连续文件非常容易,访问速度非常快;
缺点:要求为文件分配连续的空间,必须事先知道文件的长度;不能灵活的删除插入记录;对于那些动态增长的文件,由于事先很难知道文件的最终大小,因而很难为其分配空间;
链接组织方式(分为隐式链接和显示链接),采用链接组织的方式可以为文件分配多个不连续的盘块;
优点:消除磁盘的外部碎片,提高内存的利用率;对插入删除修改非常容易;可以适应文件的动态增长;
索引组织方式分为单索引和多索引组织方式。
片外存储器是指除计算机内存及CPU缓存以外的储存器,此类储存器一般断电后仍然能保存数据。常见的片外存储器有硬盘、软盘、光盘、U盘等;
按照MAC阵列定义基本计算算子,基本的计算算子包括向量向量乘,矩阵向量乘、矩阵矩阵乘以及向量向量扩充乘三类算子,每类算子的计算维度可以根据编程情况进行配置(就是通过编程选择哪一种基本计算算子,相当于设置一种计算模式);
向量向量乘完成向量和向量的乘积计算,向量的维数可编程控制;
矩阵向量乘完成矩阵和向量的乘积计算,矩阵的向量数(一个矩阵有几列就有几个向量)以及向量的维数可编程控制;
矩阵矩阵乘完成矩阵和矩阵的乘积计算,矩阵的向量数以及矩阵中向量的维数可编程控制。
向量向量扩充乘完成高纬度的向量和向量的乘积计算,向量的维数可编程控制。
解析:根据神经网络里边卷积的计算形式,可以将卷积计算过程以乘法累加单元为标准抽象成基本的计算算子;
对于不同的计算算法,也就是密集型计算任务,根据并行性,比如FFT里信号与旋转因子的蝶形计算之间旋转因子可能是相同的,这时我们就可以把FFT的旋转因子部分提取出来,把整个计算提取为矩阵向量乘,然后映射到对应的计算形式中。
解析的原则就是尽可能的最大化数据的复用,然后把基本计算转化为硬件支持的计算,保证最大的硬件利用率。
根据数据精度的组合(这部分会根据算法的要求进行确定,比如卷积或者其他密集型计算时计算的时候某一层对结果影响较小,就会将该层的位宽取的小一些,类似4bit这种;),生成可变位宽的控制指令(就是选择data部分以及weight部分具体的精度,定义一个位段比如[1:0]这一段等于00的时候是4bit,01的时候是8bit,10的时候是16bit,指令发出去后具体的执行由硬件去做;)以及数据的复用序列(这块就和数据组织有关,比如数据以64bit组织,如果做data 4bit×weight 8bit的计算,64bit包含8个weight,但8个weight只需要8个4bit的data计算,即32bit,所以一次传入的64bit数据只有32bit数据能够被计算,剩下的32bit则需要下一次重复读取该部分时才能计算,因而需要有重复读取的复用部分;);
对于一个密集计算需要多层计算,那前一层的输出数据会根据原来设计的深度学习卷积计算的输出形式输出到片外DRAM,但前一层的输出数据还会作为下一层的输入,而下一层读取的数据是按照深度学习卷积计算的形式排列好的,对于密集型计算可能没办法直接加载就可以在MAC阵列中计算使用。这时就需要根据该计算密集型任务所需要的数据排列方式将数据进行重新排列,使得这一片数据在送入到MAC阵列时是按照该计算密集型任务要求的形式输入的。
确定密集型计算任务在硬件计算映射时最优的算子计算形式:
确定可编程访存指令:
图8、图9、图10是以FFT为例的一个映射情况,正常wr和wi表示旋转因子的实部和虚部,pr、qr、pi、qi是信号数据的实部和虚部,我们把一个蝶形运算先抽象成向量乘法。然后提取相同的旋转因子,将多组向量向量乘抽象为矩阵向量乘,最后按照图的顺序将密集排列的数据按照抽象的向量形式重新排列。
图8为FFT密集计算向量转换图;
xm+1(p)=xm(p)+xm(q)×Wr N
xm+1(q)=xm(p)-xm(q)×Wr N
其中,q=p+2m
Wr N表示旋转因子,xm(p)表示一组蝶形运算其中一个输入数据,xm(q)表示一组蝶形运算另一个输入数据,xm+1(p)表示一组蝶形运算其中一个输出数据,xm+1(q)表示一组蝶形运算另一个输出数据,m是FFT的级数,比如16点的分为4级m取0,1,2,3;
图9为16点FFT蝶形运算图,WN n表示旋转因子,Xm表示输入的信号数据,()里为对应坐标,Dout为最终输出的频域数据;
图10为FFT的向量向量乘映射图,具体见图8,wr代表旋转因子的实部,wi代表旋转因子的虚部,pr表示一组蝶形运算其中一个输入数据的实部,pi表示一组蝶形运算其中一个输入数据的虚部,qr表示一组蝶形运算令一个输入数据的实部,qi表示一组蝶形运算令一个输入数据的虚部;
图11为FFT的可编程访存编程逻辑图,将数据按照可编程访存的各个部分重新排列为我们所需要的向量形式。
xm(p)_real->pr;xm(p)_imag->pi;xm(q)_real->qr;xm(q)_imag->qi
WrN_real->wr;Wr N_imag->wi
xm+1(p)_real=xm(p)_real×1+xm(q)_real×Wr N_real-xm(q)_imag×Wr N_imag=(xm(p)_real,xm(q)_real,xm(q)_imag)×(1,WrN_real,-WrN_imag)-1=(pr,qr,qi)×(1,wr,-wi)-1
xm+1(p)_imag=xm(p)_imag×1+xm(q)_real×Wr N_imag+xm(q)_imag×WrN_real=(xm(p)_imag,xm(q)_real,xm(q)_imag)×(1,Wr N_imag,Wr N_real)-1=(pi,qr,qi)×(1,wi,wr)-1
xm+1(q)_real=xm(p)_real×1-xm(q)_real×Wr N_real+xm(q)_imag×Wr N_imag=(xm(p)_real,xm(q)_real,xm(q)_imag)×(1,-Wr N_real,Wr N_imag)-1=(pr,qr,qi)×(1,-wr,wi)-1
xm+1(q)_imag=xm(p)_imag×1-xm(q)_real×Wr N_imag-xm(q)_imag×Wr N_real=(xm(p)_imag,xm(q)_real,xm(q)_imag)×(1,-Wr N_imag,-Wr N_real)-1=(pi,qr,qi)×(1,-wi,-wr)-1
real为实部,imag为虚部,->是箭头,是后边用来表示前面的缩写,简写一下,xm(p)_real用pr缩写表示。
根据硬件的数据流结构,确定该数据(如果是深度学习卷积计算就是BUFFER的数据,如果是计算密集型任务就是BUFFER2的数据。)在硬件不同操作层级(操作层级就是在一个周期内不同MAC阵列进行的计算;多个周期的操作层级组合为更高一层的块操作层级;多个块操作层级组合形成一个完整的卷积计算为顶层的操作层级。)下数据访问形式(相当于输入的数据在不同操作层级下具体要加载的数据,数据先按照规定的顺序排列好然后再送入MAC阵列。就是一个序列控制的部分。数据从片外DRAM加载到片上缓存是批量直接加载的,但MAC需要的数据是要按照数据流各个层级下的数据排列形式,需要通过一个序列控制的部分把数据从片上缓存加载到MAC阵列。属于一个通用的深度学习加速器的结构。),生成对应的序列(将顺序排列的数据按照卷积计算的顺序加载形成的序列)控制的指令;
硬件结构
该部分功能主要通过加速器中的序列控制模块(序列控制)输入至MAC阵列的数据结构完成控制的。
向量向量乘对应单周期一个MAC单元中两组向量的乘加(向量积,向量里对应位置数据相乘再加到一起)计算;序列控制器每个周期串行加载(比如有一组数据,每个周期加载其中一个,直到把所有数据都加载结束。对应的是并行加载,就是一个周期把所有数据都加载过去。)两组向量;一组计算周期(一组计算周期指的是单周期一组MAC阵列)为一个时钟周期;
每一个MAC单元运算在一个周期相当于进行一组向量积运算,即两个向量的乘法累加运算。多个MAC单元在同一个周期下,各自组的向量积中其中一条向量是相同的,提取各组相同向量得到单个周期不同MAC为矩阵向量积的运算。在矩阵向量积的基础上,多个周期加载另一条不同的向量,从而形成矩阵矩阵乘的计算。
如图7a、7b所示,按照时间轴加载数据,发送至各个MAC中。其中每个dat和wt都是一条向量。上半部分是数据串行加载的过程,下半部分是数据并行发送至各个MAC阵列的过程。每个MAC是一个矩阵向量乘,多个MAC组合形成矩阵矩阵乘。
矩阵向量乘对应单周期多组MAC单元(单个周期多组MAC抽象为矩阵向量乘)中,矩阵各组向量发送至不同的MAC阵列中,向量并行发送至各个MAC阵列中(是矩阵里面的多个向量,多个向量组成一个矩阵。将矩阵里面各条向量并行发送到各个MAC单元中);序列控制器在矩阵数据的向量数个周期(按照串行加载过程,每个周期加载一条向量,那么一个完整矩阵加载需要的周期数和矩阵的向量数相同)内串行加载各部分向量数据,向量在第一个周期完成加载(他这里相当于分为两个过程,一个是加载数据的过程,一个是计算的过程,加载的过程是串行的,加载的周期数与矩阵向量数相同,前面说的单周期指的是计算的过程,计算过程是单个周期完成的。这里我们说的是加载的过程,加载过程是多个周期的,但是矩阵向量乘里面的向量只有一条,因而向量只需要一个周期加载),一组计算周期(计算只需要一个周期,单周期,但是加载需要多个周期,然后计算和加载相当于并行执行的,计算这一组数据的同时加载下一组数据,因而计算周期以较大的加载过程为准)为矩阵中向量个数;
矩阵矩阵乘对应多周期多组MAC阵列中,A矩阵中各组向量发送至不同的MAC阵列中,B矩阵中每个周期(把数据复制MAC个,然后每个MAC发送一个)选择一组向量,并行发送至各个MAC阵列中,B矩阵中各组向量在多个周期中串行(每个周期计算B矩阵的一条向量,即串行,多个周期计算多个)完成计算;序列控制器在两组矩阵各自向量个数周期(矩阵有多少个向量就有多少个周期,在加载过程中两个矩阵的向量都是串行加载的)内串行加载各部分向量数据,一组计算周期为较大矩阵向量个数周期(较大矩阵有多少个向量就有多少个周期)。
修改MAC阵列的基本乘法单元为4bit乘法器,对于不同位宽的组合形式,我们通过符号位扩展以及移位拼接的方式完成计算。图2为8bit与8bit可变位宽乘加拼接框图。
图2中第三部分四个mul是乘法器,把MAC的乘法部分设计为4bit,8bit,16bit中最小位宽4bit的形式,然后其他位宽组合的乘法器通过4bit乘法器拼接的方式完成。这里以8bit乘8bit为例,把他拆成两个4bit的数据,然后对高四位和低四位进行符号位扩展,高位补符号位,低位补0,再分别送入到4个乘法器中,最后再移位相加,移位时涉及到符号位的问题,对于低4位乘低4位的结果,符号位扩展为0,其他拓展为高位。
对于序列控制部分,将从缓存中读取到的数据按照编程位宽组合下移位拼接所需要的数据顺序排列好,再送入至MAC阵列中。图3为8bit与8bit可变位宽乘加拼接序列控制框图。
还是以8位乘8位为例,一个MAC中有16个4位乘法器,数据在内存中时紧密排列的,但根据前面乘法拼接的原理,数据再送入到MAC阵列中时数据需要按照拼接需要的数据送入,如图所示,16个乘法器一次可以加载32位数据,从而导致输入的64位数据无法一次算计完毕,剩下的32位数据需要下一次加载时再进行计算。
可编程访存类
指令功能
该部分控制数据从片上缓存BUFFER加载之BUFFER2时需要进行的数据重新排列处理,该部分主要引入可编程访存,存内再重排以及单元内填充三组指令;
可编程访存—作为该类指令的总开关,主要负责数据的加载以及其他控制指令(存内再重排和单元内填充)的使用,引入访存的起始地址以及突发传输长度,实现对存储器中任意一段的数据访问;
存内再重排—当一条缓存数据的组成需要来自不同数据里的不同位段时,通过可编程访存读取所需的数据,通过存内再重排对读取的数据的不同位段进行重新排列组合形成新的数据;
存内再重排是由于在系统运行时存在中间数据的单个条目的重新组合,该条目的数据可能由来自其他若干组条目中几组数据的拼接,因而这里我们定义存在再重排,以保证系统在运行过程中不需要对不同硬件层之间产生的中间数据通过软件端再进行处理,只需通过编程方式即可实现存内数据的重新排列,进而完成整个系统的计算。
Rearrange_code_en:当一组数据按照16个4bit数据进行重排,指令每4个数据为一组进行重排控制,当该位置位时,表示该位对应的数据需要进行重排,通过坐标译码的方式选择该位置的4bit数据,当该位清零时,表示该位置的数据不需要进行重排,则将该位置的数据置零。
Rearrange_code:存内再重排具体的译码部分,对输入到寄存器暂存的一组若干个待重排的数据根据坐标单元进行对应的译码逻辑。
指令参考图5,图中展示了16组译码单元中的一组数据的具体逻辑,其他部分的译码同理可得。每一个译码逻辑生成一个4bit的数据,最终将16组译码结果的数据拼接成16bit的数据输出到下一模块中。
单元内填充—当读取数据的某些位段需要填充固定的数值时,通过单元内填充实现对指定位段的数据填充;
当数据位宽为4bit时,一组64bit将包含16个数据,此时使用16bit的指令控制对应位置的处理情况,当对应的指令位置位时,则表示该位置对应的数据进行相应的处理,当该位清零时,则表示该位的数据保持不变。
循环输出—当送入MAC阵列的数据是周期循环的情况时(周期循环的数据就是重排后存在相同的数据),引入立方数据宽度方向循环输出,并将待循环的数据排列至立方数据的第一层位置,实现周期循环输出(按照w方向进行循环)。
对于像图像这种三维数据,对于长宽高我们通常用width(宽度),height(高度),channel(通道数)来表示,宽度方向循环就是当硬件在读取一个三维数据时是按照w,h,c的顺序读取数据的,当一个w方向读取结束之后会继续读取下一h高度的w方向的数据,当循环模式开启时,将重复读取上一h高度下的w方向的数据。
硬件结构
图4为可编程访存结构,该部分硬件结构主要根据指令接收到的编程地址以及突发传输长度生成缓存读取数据的地址,并按照读通道时序生成对应的读数据信号,待缓存中的数据加载结束后按顺序读出。
图5为存内再重排结构,接收来自可编程访存发送至寄存器中的数据,根据译码指令对暂存在寄存器中的数据以及数据中具体的位段部分进行选择。根据选择情况完成一组完整的64位数据的拼接,并输出至单元内填充模块。
图6为单元内填充结构,该部分主要根据译码指令选择将该部分数据的指定位段填充为指令指定的固定数值,同时当数据处于不同位宽情况下时,一条数据的组合情况不一致,所以会根据不同位宽情况对填充位段进行分别处理。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (7)
1.一种深度学习处理器的泛化架构设计方法,其特征在于:所述方法具体过程为:
步骤1:系统分为软件部分和硬件部分;
软件部分即通用处理器,通用处理器负责对硬件编程;
硬件部分即深度学习加速器,深度学习加速器负责硬件计算;
通用处理器包括深度学习卷积计算任务和密集型计算任务;
通用处理器读取数据,解析数据在片外存储器的组织形式;
当进行密集型计算任务时,进入步骤2;
当进行深度学习卷积计算任务时,进入步骤3;
步骤2:解析密集型计算任务,得到最优的算子计算形式,将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中;
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
步骤3:将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,缓存Buffer中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器。
2.根据权利要求1所述的一种深度学习处理器的泛化架构设计方法,其特征在于:所述步骤2:解析密集型计算任务,得到最优的算子计算形式,将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中;
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
具体过程为:
密集型计算任务的算子包括向量向量乘,矩阵向量乘,矩阵矩阵乘和向量向量扩充乘;
向量向量乘a1×b1完成向量和向量的乘积计算,向量a1或者b1的维数可编程控制,所述向量a1或者b1的维数指向量a1或者向量b1中数据的数量;
矩阵向量乘完成矩阵和向量的乘积计算,矩阵的向量数可编程控制,向量的维数可编程控制,所述向量的维数指向量中数据的数量;
矩阵矩阵乘完成矩阵和矩阵的乘积计算,矩阵的向量数以及矩阵中向量的维数可编程控制;
向量向量扩充乘完成矩阵矩阵乘的计算结果的对角线相加,矩阵的向量数以及矩阵中向量的维数可编程控制;
若一组向量向量乘a1×b1,a2×b2,…,an×bn中向量a1,a2,an不相同且向量b1,b2,bn不相同,向量向量乘a1×b1,a2×b2,…,an×bn还是向量向量乘a1×b1,a2×b2,…,an×bn;
若一组向量向量乘a1×b1,a2×b2,…,an×bn中向量a1,a2,an相同或向量b1,b2,bn相同,则将相同的向量提取出来,另一组不相同的向量拼接转换成矩阵,向量向量乘变成矩阵向量乘;
若一组向量向量乘a1×b1,a2×b2,…,an×bn中向量a1,a2,an相同且向量b1,b2,bn相同,则将一组相同的向量提取出来,另一组相同的向量拼接转换成矩阵,向量向量乘变成矩阵向量乘;
若一组矩阵向量乘A1×b1,A2×b2,…,An×bn中矩阵A1、A2、An相同,矩阵A1、A2、An提取出来,将向量b1、b2、bn拼接转换成矩阵,矩阵向量乘变成矩阵矩阵乘;
A1、A2、An表示矩阵,b1、b2、bn表示向量;
若一个矩阵矩阵乘A×B的计算结果的对角线相加,得到向量向量扩充乘;
B1、B2、Bn表示矩阵;
即得到最优的算子计算形式;
将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中;
缓存Buffer2中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器。
3.根据权利要求2所述的一种深度学习处理器的泛化架构设计方法,其特征在于:所述基于最优的算子计算形式将片上缓存Buffer的数据重排,将重排后数据加载到片上缓存Buffer2中,具体过程为:
基于密集计算对应的密集公式将片上缓存Buffer的数据拆成最优的算子计算形式;
将拆成的最优的算子计算形式加载到片上缓存Buffer2中。
4.根据权利要求3所述的一种深度学习处理器的泛化架构设计方法,其特征在于:所述步骤3:将步骤1数据在片外存储器的组织形式加载到片上缓存Buffer,缓存Buffer中数据传输到MAC阵列中,MAC阵列输出结果传给片外存储器;
具体过程为:
步骤31、将密集型计算任务的算子转换成深度学习卷积计算任务中的序列控制形式;
步骤32、序列控制模块将缓存Buffer中数据按照深度学习卷积计算任务中的序列控制形式加载出来然后传输到MAC阵列中。
5.根据权利要求4所述的一种深度学习处理器的泛化架构设计方法,其特征在于:所述步骤31、将密集型计算任务的算子转换成深度学习卷积计算任务中的序列控制形式;具体过程为:
密集型计算任务的算子包括向量向量乘,矩阵向量乘,矩阵矩阵乘和向量向量扩充乘;
通用的深度学习加速器包含一个MAC阵列,一个周期一个MAC单元加载一个数据的一个卷积核,将MAC阵列转换成向量向量乘;
通用的深度学习加速器包含一个MAC阵列,一个周期多个MAC单元中每个MAC阵列加载同一个数据的不同卷积核,将MAC阵列转换成矩阵向量乘;
通用的深度学习加速器包含一个MAC阵列,多个周期多个MAC单元加载不同数据的不同卷积核,将MAC阵列转换成矩阵矩阵乘;
通用的深度学习加速器包含一个MAC阵列,多个周期多个MAC单元加载不同数据的不同卷积核,一组矩阵矩阵乘的计算结果的对角线相加,将MAC阵列转换成向量向量扩充乘。
6.根据权利要求5所述的一种深度学习处理器的泛化架构设计方法,其特征在于:所述深度学习卷积计算任务中包括可变位宽的控制指令;
所述密集型计算任务中包括可变位宽的控制指令。
7.根据权利要求6所述的一种深度学习处理器的泛化架构设计方法,其特征在于:所述MAC为乘法累加运算;
MAC阵列为多个乘法累加运算单元组成的阵列;
MAC阵列是4bit的MAC阵列,对于不同的位宽组合是通过4bit拼接得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310441634.XA CN116521611A (zh) | 2023-04-23 | 2023-04-23 | 一种深度学习处理器的泛化架构设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310441634.XA CN116521611A (zh) | 2023-04-23 | 2023-04-23 | 一种深度学习处理器的泛化架构设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521611A true CN116521611A (zh) | 2023-08-01 |
Family
ID=87393467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310441634.XA Pending CN116521611A (zh) | 2023-04-23 | 2023-04-23 | 一种深度学习处理器的泛化架构设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521611A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861149A (zh) * | 2023-09-05 | 2023-10-10 | 之江实验室 | 卷积运算的优化方法、装置及处理器 |
CN117236187A (zh) * | 2023-09-28 | 2023-12-15 | 中国科学院大学 | 一种深度学习加速器芯片的参数化设计方法及系统 |
-
2023
- 2023-04-23 CN CN202310441634.XA patent/CN116521611A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861149A (zh) * | 2023-09-05 | 2023-10-10 | 之江实验室 | 卷积运算的优化方法、装置及处理器 |
CN116861149B (zh) * | 2023-09-05 | 2024-01-09 | 之江实验室 | 卷积运算的优化方法、装置及处理器 |
CN117236187A (zh) * | 2023-09-28 | 2023-12-15 | 中国科学院大学 | 一种深度学习加速器芯片的参数化设计方法及系统 |
CN117236187B (zh) * | 2023-09-28 | 2024-03-19 | 中国科学院大学 | 一种深度学习加速器芯片的参数化设计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102443546B1 (ko) | 행렬 곱셈기 | |
Ma et al. | Optimizing loop operation and dataflow in FPGA acceleration of deep convolutional neural networks | |
CN116521611A (zh) | 一种深度学习处理器的泛化架构设计方法 | |
KR101196566B1 (ko) | 멀티 프로세서 시스템 및 그 정보처리방법 | |
CN101061460B (zh) | 用于混移运算的微处理器设备和方法 | |
US20220012598A1 (en) | Methods and apparatus for matrix and vector storage and operations | |
US7640284B1 (en) | Bit reversal methods for a parallel processor | |
US20180046895A1 (en) | Device and method for implementing a sparse neural network | |
US7836116B1 (en) | Fast fourier transforms and related transforms using cooperative thread arrays | |
CN110415157B (zh) | 一种矩阵乘法的计算方法及装置 | |
CN111897579A (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
Kulkarni et al. | Systolic processing and an implementation for signal and image processing | |
US7428630B2 (en) | Processor adapted to receive different instruction sets | |
CN111338695A (zh) | 基于流水线技术的数据处理方法及相关产品 | |
CN110414672B (zh) | 卷积运算方法、装置及系统 | |
US9244886B1 (en) | Minimum resource fast fourier transform | |
CN113807998A (zh) | 图像处理方法、目标检测装置、机器视觉设备和存储介质 | |
EP1076296A2 (en) | Data storage for fast fourier transforms | |
CN116842304A (zh) | 一种不规则稀疏矩阵的计算方法及系统 | |
US6789097B2 (en) | Real-time method for bit-reversal of large size arrays | |
CN113448624B (zh) | 数据存取方法及装置、系统、ai加速器 | |
CN101751356A (zh) | 用于改进直接存储器存取传送效率的方法、系统和装置 | |
CN111522776B (zh) | 一种计算架构 | |
CN112434255A (zh) | 向量-矩阵运算和数据处理方法、乘法器和处理器芯片 | |
CN114281554B (zh) | 用于3d图像处理的3d-cnn加速方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |