CN113128688B

CN113128688B - 通用型ai并行推理加速结构以及推理设备

Info

Publication number: CN113128688B
Application number: CN202110399639.1A
Authority: CN
Inventors: 范云潜; 刘晨光; 徐靖涵; 张昊懿; 康旺; 潘彪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2022-10-21
Anticipated expiration: 2041-04-14
Also published as: CN113128688A

Abstract

本发明提供一种通用型AI并行推理加速结构以及推理设备，该结构包括：数据重排模块以及连接在所述数据重排模块输出端的向量处理模块；所述数据重排模块接收待处理数据、卷积神经网络模型参数，所述卷积神经网络模型参数包括：权重以及偏置，根据控制信号将所述待处理数据重排得到特征图向量，根据控制信号将所述权重重排得到权重向量，并将所述特征图向量、所述权重向量以及所述偏置发送至所述向量处理模块；所述向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加，实现基于数据重排的内积运算，增强了计算的通用性，减少所需计算模块的类别，提升计算效率，实现卷积神经网络整体的推理加速。

Description

通用型AI并行推理加速结构以及推理设备

技术领域

本发明涉及人工智能领域，尤其涉及一种通用型AI并行推理加速结构以及推理设备。

背景技术

近年来，以卷积神经网络为代表的深度学习技术与人工智能技术深入到人类社会的各个方面，在卷积神经网络中，最关键的是数据与算力，但是算法的训练基于大规模并行浮点运算，位于物联网终端一侧的推理设备由于计算、存储资源受限，算法的推理的时间空间复杂度给AI走向AIoT(人工智能物联网)带来了巨大的挑战。

举例来说，由于以往FPGA与特定的ASIC硬件设计多基于卷积的物理实现以及对应的优化，但是网络中全连接等操作也占据了相当的比重，而全连接的复用较少且这类硬件只能通过卷积模块来实现卷积核大小的全连接操作(卷积模式运算和全连接模式的运算参见图1)，因此占据的资源大部分都被闲置，造成资源浪费与效率下降。

发明内容

针对现有技术中的问题，本发明提供一种通用型AI并行推理加速结构以及推理设备，能够至少部分地解决现有技术中存在的问题。

为了实现上述目的，本发明采用如下技术方案：

第一方面，提供一种通用型AI并行推理加速结构，包括：数据重排模块以及连接在所述数据重排模块输出端的向量处理模块；

所述数据重排模块接收待处理数据、卷积神经网络模型参数，所述卷积神经网络模型参数包括：权重以及偏置，根据控制信号将所述待处理数据重排得到特征图向量，根据控制信号将所述权重重排得到权重向量，并将所述特征图向量、所述权重向量以及所述偏置发送至所述向量处理模块；

所述向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加。

进一步地，所述数据重排模块对数据进行分块重排。

进一步地，所述向量处理模块包括：内积运算单元、偏置单元；

所述内积运算单元的两个输入端分别接收所述权重向量以及所述特征图向量，输出端连接所述偏置单元的第一输入端，所述偏置单元第二输入端接收所述偏置。

进一步地，所述向量处理模块还包括：缓存单元；

所述缓存单元用于缓存所述特征图向量、所述权重向量以及所述偏置。

进一步地，所述向量处理模块还包括：累加器；

所述累加器的输入端连接所述偏置单元的输出端。

进一步地，通用型AI并行推理加速结构还包括：存储单元；

所述块存储单元的输出端连接所述数据重排模块的输入端，用于存储所述待处理数据、所述卷积神经网络模型参数，并将所述待处理数据、所述卷积神经网络模型参数传输至所述数据重排模块。

进一步地，通用型AI并行推理加速结构还包括：处理系统，所述处理系统包括CPU、内存、直接访存单元以及总线接口；

所述CPU、所述内存以及所述直接访存单元两两连接，所述直接访存单元的输出端连接所述接口，所述总线接口连接所述存储单元。

进一步地，通用型AI并行推理加速结构还包括：控制模块；

所述控制模块与所述数据重排模块以及所述向量处理模块连接，所述控制模块根据配置信息控制所述数据重排模块以及所述向量处理模块，所述配置信息包括：当前计算的数据块的起止地址、分块大小与通道、计算类型、计算权重块的大小与通道数。

进一步地，所述卷积神经网络模型参数包括：卷积以及全连接的多维参数，所述多位参数包括权重和偏置。

第二方面，提供一种推理设备，包括如上述的通用型AI并行推理加速结构。

本发明提供的通用型AI并行推理加速结构以及推理设备，该通用型AI并行推理加速结构，包括：数据重排模块以及连接在所述数据重排模块输出端的向量处理模块；所述数据重排模块接收待处理数据、卷积神经网络模型参数，所述卷积神经网络模型参数包括：权重以及偏置，根据控制信号将所述待处理数据重排得到特征图向量，根据控制信号将所述权重重排得到权重向量，并将所述特征图向量、所述权重向量以及所述偏置发送至所述向量处理模块；所述向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加，实现基于数据重排的内积运算，增强了计算的通用性，可以通过数据重排将乘加类操作转换为内积计算，减少所需计算模块的类别，将所有的并行计算资源(如DSP或乘加器)集中在单个计算模块内，提升计算效率，进一步提高神经网络乘加计算的并行性与计算流水化，实现卷积神经网络整体的推理加速，提高算法在终端的处理速度。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本发明实施例中卷积模式运算和全连接模式的运算；

图2示出了本发明实施例中的通用型AI并行推理加速结构的系统架构；

图3示出了本发明实施例中卷积运算原理；

图4示出了本发明实施例中分块卷积运算原理；

图5示出了一种利用本发明实施例中的通用型AI并行推理加速结构对三维的分块权重矩阵进行重排的过程；

图6示出了一种利用本发明实施例中的通用型AI并行推理加速结构对二维的分块特征图矩阵进行重排的过程；

图7示出了本发明实施例中的数据二维展开方式；

图8示出了本发明实施例中的向量处理模块的缓存涉及；

图9示出了本发明实施例中的卷积核位置与数据复用。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

以下在实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何本领域技术人员，了解本发明的技术内容并据以实施，且根据本说明书所揭露的内容、权利要求及图式，任何本领域技术人员可轻易地理解本发明相关的目的及优点。以下的实施例进一步详细说明本发明的观点，但非以任何观点限制本发明的范畴。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

名词解释：

FPGA：可编程逻辑阵列(Field Programmable Gate Array)；

DSP：数字信号处理元件(Digital Signal Processor)；

BRAM：块存储(Block Random Access Memory)；

PL：可编程逻辑部分(Programmable Logic)；

PS：处理系统(Processing System)；

端侧设备：物联网终端一侧的设备；

DMA：直接访存单元(Direct Memory Access)；

MAC：乘法-加法计算操作。

图2示出了本发明实施例中的通用型AI并行推理加速结构的系统架构；如图2所示，该通用型AI并行推理加速结构包括：数据重排模块以及连接在所述数据重排模块输出端的向量处理模块；

其中，数据重排模块接收待处理数据、卷积神经网络模型参数，卷积神经网络模型参数包括：权重以及偏置，数据重排模块根据控制信号将待处理数据重排得到特征图向量，根据控制信号将权重重排得到权重向量，并将所述特征图向量、所述权重向量以及所述偏置发送至所述向量处理模块；

向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加。

值得说明的是，数据重排模块可以使用存储阵列作为缓存，保存特定块大小的二维数据，数据由外部单元依次、线性写入，使用多个数据读取单元共同工作，一次寻址将特定行或者列的数据全部输出，完成对特定维度的展开。

本发明核心设计在数据计算，由于以往FPGA硬件设计多基于卷积的物理实现以及对应的优化，但是网络中全连接等操作也占据了相当的比重，而全连接的复用较少且这类硬件只能通过卷积模块来实现卷积核大小的全连接操作，因此占据的资源大部分都被闲置，并且大多数时间在等待数据的搬运，造成计算资源浪费与效率下降，关于此问题，本方案创新性的设计了基于数据重排的内积运算的数字模块，增强了计算的通用性，可以通过数据重排将乘加类操作转换为内积计算，减少所需计算模块的类别，将所有的并行计算资源(主要是DSP，用于乘法)集中在单个内积计算模块内，提升计算效率，大幅提高神经网络MAC计算的并行性与计算流水化结构，最终实现卷积神经网络整体的推理加速，提高算法在终端的处理速度。

在一个可选的实施例中，数据重排模块可以对数据进行分块重排。

在一个可选的实施例中，继续参见图2，向量处理模块包括：内积运算单元、偏置单元；

内积运算单元的两个输入端分别接收所述权重向量以及所述特征图向量，输出端连接所述偏置单元的第一输入端，所述偏置单元第二输入端接收所述偏置。

值得说明的是，内积运算单元可以采用乘加器实现，偏置电路采用加法器阵列实现。

在一个可选的实施例中，向量处理模块还可以包括：缓存单元；缓存单元用于缓存所述特征图向量、所述权重向量以及所述偏置。

在一个可选的实施例中，向量处理模块还包括：累加器；所述累加器的输入端连接所述偏置单元的输出端。

在一个可选的实施例中，通用型AI并行推理加速结构还包括：存储单元；所述块存储单元的输出端连接所述数据重排模块的输入端，用于存储所述待处理数据、所述卷积神经网络模型参数，并将所述待处理数据、所述卷积神经网络模型参数传输至所述数据重排模块。

在一个可选的实施例中，通用型AI并行推理加速结构还包括：处理系统，所述处理系统包括CPU、内存、直接访存单元以及总线接口；

在一个可选的实施例中，通用型AI并行推理加速结构还可以包括：PL端控制模块；

在一个可选的实施例中，卷积神经网络模型参数包括：卷积以及全连接的多维参数，所述多位参数包括权重和偏置。

值得说明的是，数据重排模块可以采用在FPGA上实现专用的读取电路，采用一个buffer内部的多行同一对应位置可以依次输出，避免数据读取的跳跃。

下面参见图2至图9，对本发明的实现过程进行具体说明：

如图2，DMA(Direct Memory Access，直接存储器访问)将待处理数据(Data)，当前网络层的权重(Weight)与偏置(Bias)搬运到BRAM，并且存入当前层需要使用的配置信息(Config)。Config内含有关于当前计算的数据块的起止地址、分块大小与通道、计算类型等信息以及对应的计算权重块的大小与通道数，这些信息被输入到数据重排模块中。数据重排模块的作用是将卷积以及全连接的多维数据(通常为三维)展开到一维提供给后续的向量处理模块(Vector Processor，VP)，并且提示VP的缓存更新。VP会对权重向量以及特征图向量进行内积操作，并且进行偏置叠加，在VP中还有一个专用的累加器，用于合并中间结果。同时，本模块也采用了数据复用的方式来减少延时，VP会将权重缓存到内部的运算单元里，只需要进行计算的数据与权重的更新即可完成运算，减少数据的搬移。统一的计算结构允许使用者对计算模式进行配置，如进行卷积、全连接等不同计算。

通用型AI并行推理加速结构的计算流程如下：

1.在计算开始时，CPU向DMA发送触发信号；

2.DMA接收到信号，将权重、偏置与待处理的输入数据进行搬运；

3.DMA通过PS和PL的接口对PL的RAM接口进行访问；

4.数据存储到PL端的块存储；

5.数据搬运完成，DMA向CPU发送中断信号；

6.CPU向PL的控制模块发送开始信号，表明数据已经搬运完成，开始进行处理。

7.将数据(输入、权重、偏置或中间结果)从块存储搬运到数据重排模块；

8.对数据进行重新排列，得到线性排列的数据；

9.将重新排列后的数据送入向量处理模块，按照类别送入不同的缓存单元；

10.向量处理模块对缓存中的数据进行乘加运算，得到的结果称为中间结果；

11.将中间结果搬运到块存储；

12.根据网络层次的不同，重复7-11，只到所有网络层次计算完成。整个数据搬运与计算过程由PL端控制模块进行控制。

需要注意的是，网络每一层的输入，除去输入层外的所有层的输入均来自之前的层次，此时从块存储搬运的数据为中间结果。

在考虑运算单元VP时，由于访问内存的开销巨大(约为访问片上BRAM的1000倍，约为计算同样规模数据的100-200倍)，数据的复用策略会对系统的效率造成极大的影响，本发明提出了一种软件端的数据分割算法来配合硬件端的计算模块。在卷积神经网络中，中间数据往往是远远多于权重的，因此本算法的主要目的是通过复用中间数据减少计算模块的访存次数。如图3，每一层的卷积核都需要与对应的网络层的全部深度通道的特征图进行计算，而由于系统的计算资源有限，需要对中间数据进行分块，分块过程参见图4。如图7，读取的每一组分块数据,需要展开成一维数据，放入并行运算单元内，考虑到内存的连续性，需要按照高维-低维顺序展开，这样的展开方式可以最大程度的减少由于内存空间不连续造成的切换开销。同样地，为了减少下一层数据的读取代价，存储也按照相同的方式进行存储，相关信息需要写入到Config内。权重由于数据量较小而调用次数较多，设计集中在片上存储的复用策略，减少与主存的交互次数。运算单元如图8，另外，除去以上提到的将数据维度完全展开方式，还可以选择部分维度展开，或者交换展开顺序。

图5示出了一种利用本发明实施例中的通用型AI并行推理加速结构对三维的分块权重矩阵进行重排的过程；如图5所示，给定一个三维的分块权重矩阵，按照内存中的顺序进行重排，可以避免地址不连续造成的数据搬运延时。

图6示出了一种利用本发明实施例中的通用型AI并行推理加速结构对二维的分块特征图矩阵进行重排的过程；如图6所示，给定一个二维的分块特征图矩阵，按照计算方式以及权重的形状进行重排，给出了全连接以及进行2x2卷积的展开方式。

值得说明的是，为了减少数据搬运的次数，需要进行数据的复用，对大部分情况来说，复用权重是必须的，在这个基础上，也希望进行输入的复用。对于全连接来说，所有的输入、权重均计算一次，因此没有复用的可能性。而卷积为移窗型计算，卷积核的当前位置和下一位置存在交叠，为了保持存储的连续性，在内存中按照图9箭头所示方向排列数据，移动到下一位置只需进行卷积核长度大小的移位，并引入新的输入即可。

综上所述，本发明实施例中利用数据展开为向量的并行计算结构(以往采用卷积模拟)，将计算资源集中到统一的模块中，按照全连接、卷积操作进行展开，完全复用权重。另外，本发明实施例中基于统一的向量单元进行不同类型神经网络操作的可重构计算方法，将向量处理模块内的缓存取出进行并行的乘法，并且将结果累加后加上偏置。需要注意的是，由于向量处理模块内部的计算资源的限制，多次进行乘加计算才能遍历整个缓存。

值得说明的是，数据按计算需要进行排列的内存组织方式，运算之前在块存储中按照特征图存储，之后展开，在向量处理模块内线性排列，运算单元复用特征图、存储单元复用权重的数据复用策略。

本发明实施例还提供一种推理设备，包括如上述的通用型AI并行推理加速结构；

具体地，推理设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等含有并行计算单元的设备。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

该推理设备通过利用上述的通用型AI并行推理加速结构，实现基于数据重排的内积运算，增强了计算的通用性，可以通过数据重排将乘加类操作转换为内积计算，减少所需计算模块的类别，将所有的并行计算资源(如DSP或乘加器)集中在单个计算模块内，提升计算效率，进一步提高神经网络乘加计算的并行性与计算流水化，实现卷积神经网络整体的推理加速，提高算法在终端的处理速度。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅是本发明的较佳实施例而已，并非对本发明做任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案的范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种通用型AI并行推理加速结构，其特征在于，包括：数据重排模块以及连接在所述数据重排模块输出端的向量处理模块；

所述向量处理模块对所述特征图向量以及所述权重向量进行内积操作后进行偏置叠加；

具体地，所述数据重排模块对数据进行分块重排；读取的每一组分块数据，将所述分块数据展开成一维数据，展开时按照从高维至低维的顺序展开，并存入并行运算单元内，存储也按照从高维至低维的顺序进行存储，片上存储的复用策略根据所述权重进行设定。

2.根据权利要求1所述的通用型AI并行推理加速结构，其特征在于，所述向量处理模块包括：内积运算单元、偏置单元；

3.根据权利要求2所述的通用型AI并行推理加速结构，其特征在于，所述向量处理模块还包括：缓存单元；

4.根据权利要求2所述的通用型AI并行推理加速结构，其特征在于，所述向量处理模块还包括：累加器；

所述累加器的输入端连接所述偏置单元的输出端。

5.根据权利要求1所述的通用型AI并行推理加速结构，其特征在于，还包括：存储单元；

所述存储单元的输出端连接所述数据重排模块的输入端，用于存储所述待处理数据、所述卷积神经网络模型参数，并将所述待处理数据、所述卷积神经网络模型参数传输至所述数据重排模块。

6.根据权利要求5所述的通用型AI并行推理加速结构，其特征在于，还包括：处理系统，所述处理系统包括CPU、内存、直接访存单元以及总线接口；

7.根据权利要求1或6所述的通用型AI并行推理加速结构，其特征在于，还包括：控制模块；

8.根据权利要求1所述的通用型AI并行推理加速结构，其特征在于，所述卷积神经网络模型参数包括：卷积以及全连接的多维参数，所述多维参数包括权重和偏置。

9.一种推理设备，其特征在于，包括如权利要求1至8任一项所述的通用型AI并行推理加速结构。