CN111126593A

CN111126593A - 可重构的自然语言深度卷积神经网络加速器

Info

Publication number: CN111126593A
Application number: CN201911083419.7A
Authority: CN
Inventors: 刘诗玮; 张怡云; 史传进
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-05-08
Anticipated expiration: 2039-11-07
Also published as: CN111126593B

Abstract

本发明属于集成电路技术领域，具体为一种可重构的自然语言深度卷积神经网络加速器。本发明加速器是基于时间序列输入的，包括：多组可重构的计算单元向量，用于实现不同尺寸卷积核的计算；多组多输入加法树，用于求和不同输入通道的乘法结果；一个输入特征图存储单元；多组输出特征图存储单元，用于存储计算过程中的中间结果以及最终的输出特征值；一个控制单元，用于配置计算单元向量、计算流程以及数据流向。本加速器特意针对输入的语言时间序列进行优化，避免当前输入序列小于空洞卷积感受野时的重复计算与计算暂停的问题；同时可重构的计算单元向量可以实现不同尺寸的卷积核计算。

Description

可重构的自然语言深度卷积神经网络加速器

技术领域

本发明属于集成电路技术领域，具体涉及一种可重构的自然语言深度卷积神经网络加速器。

背景技术

当今，深度卷积神经网络被广泛的应用与自动驾驶、图像分类、目标识别以及自然语言处理等各个领域。在诸如语义分割、语音识别等自然语言处理任务中，为了解决卷积神经网络感受野较小的问题，特别引入了空洞卷积。

空洞卷积区别于传统的卷积，在卷积核相连权重之间插入零值，得到一个尺寸更大的卷积核，进而增加了卷积的感受野。

语音序列一般随着时间逐次输入，造成当前时刻的输入序列长度可能小于空洞卷积的感受野。此时，对于CPU/GPU来说，一般需要等待后续语音序列的输入，使计算资源利用率较低。此外，空洞卷积在语音序列上滑动完成卷积，相邻滑动窗口之间重叠较大，引入了数据的重复计算，降低了计算能耗。

为解决以上问题，本发明提供了一种基于时间序列输入的可重构的自然语言深度卷积神经网络加速器。该加速器将输入的语音时间序列逐次传播到相连的计算单元中，当前时刻产生的中间结果暂存在片上存储单元中，以供与之后输入的时间序列完成卷积计算。

发明内容

为克服上述现有技术的缺点，本发明提供基于时间序列输入的可重构的自然语言深度卷积神经网络加速器。

本发明提供的可重构的自然语言深度卷积神经网络加速器，是基于时间序列输入技术的，包括：

16组可重构的计算单元向量，每组计算单元向量包含6个计算单元；用于计算卷积神经网络中16个不同的输入通道。通过配置该计算单元向量，可以计算不同尺寸的卷积核；

6组16输入加法树，用于求和16个输入通道的乘法结果，得到最多6个输出通道的中间结果；

16个用于存储输入特征图的存储单元；

6组输出特征图存储单元，用于存储最多6个输出通道上的中间结果以及最终的输出特征图；

一个控制单元，用于配置计算单元向量、计算流程以及数据流向。

本发明中，所述计算单元向量中的6个计算单元，其连接关系可以重构，用于计算不同尺寸的卷积核，以高的计算资源利用率；所述的输出特征图存储单元暂存中间结果并与不同的计算单元进行数据交互，避免逐层计算空洞卷积时输出特征图的重复计算。

本发明中，每组输入特征图存储单元与计算单元向量用于计算卷积的一个输入通道； 16个输入通道的乘法结果经过加法器得到一个输出通道的中间结果；当前时刻的中间结果与之后输入的时间序列对应的中间结果在下一个计算单元中完成累加得到最终的输出特征图。

本发明中，同一输入通道内的6个计算单元，可以重构为1x6、2x3、3x2、5x1的连接结构，用于同时计算1x1卷积核的6个输出通道，或同时计算2x1卷积核的3个输出通道，或同时计算3x1卷积核的2个输出通道，或计算5x1卷积核的1个输出通道。除最后一种连接结构外，其余结构均可实现100%的计算资源利用率。

本发明中，输入特征图根据输入通道索引存储在不同的输入特征图存储单元中，作为同组的计算单元向量的输入；输出特征图根据输出通道索引存储在不同的输出特征图存储单元中。

本发明中，输入特征图存储单元通过广播的方式将输入时间序列传输到不同连接结构的起始计算单元。并传播到后续计算单元中，与暂存在计算单元中的权重完成乘法运算。乘法结果求和后的中间结果存储在输出存储特征图存储单元中，以供与之后输入的时间序列完成卷积运算。避免了时间序列长度暂未到达空洞卷积的感受野造成的重复计算与计算暂停问题。

附图说明

图1是本发明的顶层电路模块框图。

图2是本发明的可重构计算单元向量的重构示意图。

图3是本发明的计算时序图。

具体实施方式

下面结合实施例和图示进一步描述本发明，本发明提供的实施例，不应该被认为仅限于在此阐述的实施例。

实施例是一个基于时间序列输入的可重构的自然语言深度卷积神经网络加速器。图1为其顶层电路模块框图。

所述装置包括16组可重构的计算单元向量，每个计算单元向量包含6个计算单元；6组16输入加法树；16个用于存储输入特征图的存储单元；6个存储输出特征图以及中间计算结果的存储单元以及一个控制单元。

每组输入特征图存储单元与计算单元向量用于计算卷积的一个输入通道。

16个输入通道的乘法结果经过加法器得到一个输出通道的中间结果。

当前时刻的中间结果与之后输入的时间序列对应的中间结果在下一个计算单元中完成累加得到最终的输出特征图。

图2是可重构计算单元向量不同的重构连接结构。其可以重构为1x6，2x3，3x2，5x1的连接结构，用于同时计算1x1卷积核的6个输出通道，或同时计算2x1卷积核的3个输出通道，或同时计算3x1卷积核的2个输出通道，或计算5x1卷积核的1个输出通道。

图3是基于语音时间序列输入的计算流程，其所示卷积核大小为2x1，空洞卷积相邻权重之间插入一个零值。W1、W2为卷积核中的权重，A1至A5为5个时刻内逐次到达的输入特征值，P1至P3为中间结果，O1、O2为最终的输出特征值。如此，当前时刻权重W1与输入序列（A1、A2）产生的中间结果（P1、P2）需要同3个时间点之后W2与A1、A2的中间结果完成累加，得到最后的输出特征图（O1、O2）。中间结果依次存储在输出特征图存储单元中，并从t3时刻开始依次在计算单元2中完成累加。

以上通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

Claims

1.一种可重构的自然语言深度卷积神经网络加速器，是基于时间序列输入的，其特征在于，包括：

16组可重构的计算单元向量，每组计算单元向量包含6个计算单元；用于计算卷积神经网络中16个不同的输入通道；

16个用于存储输入特征图的存储单元；

一个控制单元，用于配置计算单元向量、计算流程以及数据流向；

其中，所述计算单元向量中的6个计算单元，其连接关系可以重构，用于计算不同尺寸的卷积核，以高的计算资源利用率；所述的输出特征图存储单元暂存中间结果并与不同的计算单元进行数据交互，避免逐层计算空洞卷积时输出特征图的重复计算。

2. 根据权利要求1所述的可重构的自然语言深度卷积神经网络加速器，其特征在于，每组输入特征图存储单元与计算单元向量用于计算卷积的一个输入通道； 16个输入通道的乘法结果经过加法器得到一个输出通道的中间结果；当前时刻的中间结果与之后输入的时间序列对应的中间结果在下一个计算单元中完成累加得到最终的输出特征图。

3.根据权利要求1所述的可重构的自然语言深度卷积神经网络加速器，其特征在于，所述计算单元向量中的6个计算单元连接关系可以重构，具体配置为1x6，2x3，3x2，5x1的连接结构，用于同时计算1x1卷积核的6个输出通道，或同时计算2x1卷积核的3个输出通道，或同时计算3x1卷积核的2个输出通道，或计算5x1卷积核的1个输出通道。

4.根据权利要求1所述的的可重构的自然语言深度卷积神经网络加速器，其特征在于，输入特征图根据输入通道索引存储在不同的输入特征图存储单元中，作为同组的计算单元向量的输入；输出特征图根据输出通道索引存储在不同的输出特征图存储单元中。

5.根据权利要求1、2、3或4所述的可重构的自然语言深度卷积神经网络加速器，其特征在于，输入特征图存储单元通过广播的方式将输入特征值传输到不同连接结构的起始计算单元。

6.根据权利要求5所述的可重构的自然语言深度卷积神经网络加速器，其特征在于，

输入的时间序列逐次传入起始计算单元中并传播到后续计算单元中，与暂存在计算单元中的权重完成乘法运算；乘法结果求和后的中间结果存储在输出存储特征图存储单元中，以供与之后输入的时间序列完成卷积运算。