CN107944545A

CN107944545A - 应用于神经网络的计算方法及计算装置

Info

Publication number: CN107944545A
Application number: CN201711102485.5A
Authority: CN
Inventors: 韩银和; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-04-20
Anticipated expiration: 2037-11-10
Also published as: CN107944545B

Abstract

本发明提供了一种应用于神经网络的计算方法和计算装置。该计算方法包括以下步骤：获取仅包含数值1和‑1权重的二值卷积核；将所述二值卷积核分解为初始卷积核和特征卷积核，其中，所述初始卷积核和所述特征卷积核与所述二值卷积核的维数相同，所述初始卷积核是由数值为1的权重构成的矩阵，所述特征卷积核是相对于所述二值卷积核保留了数值为‑1的权重所形成的矩阵；基于所述初始卷积核和所述特征卷积核执行神经网络中的卷积计算。利用本发明的计算方法和计算装置能够提高卷积计算的效率并节省存储电路的开销。

Description

应用于神经网络的计算方法及计算装置

技术领域

本发明涉及深度学习技术领域，尤其涉及一种应用于卷积网络的计算方法及计算装置。

背景技术

近年来，深度学习技术得到了飞速的发展，在解决高级抽象认知问题，例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐和智能机器人等领域得到了广泛应用，成为学术界和工业界的研究热点。

深度神经网络是人工智能领域具有最高发展水平的感知模型之一，该类网络通过建立模型模拟人类大脑的神经连接结构，通过多个变换阶段分层对数据特征进行描述，为图像、视频和音频等大规模数据处理任务带来突破性进展。深度神经网络模型结构是一种运算模型，由大量节点通过网状互连结构构成，这些节点被称为神经元。每两个节点间连接强度都代表通过该连接信号在两个节点间的加权重，即权重，与人类神经网络中的记忆相对应。

然而，实现深度学习技术依赖于极大的计算量。在训练阶段，需要在海量数据中通过反复迭代计算得到神经网络中的权重数据；在推理阶段，同样需要神经网络在极短的响应时间(通常为毫秒级)内完成对输入数据的运算处理。神经网络中涉及的计算主要包括卷积操作、池化操作等，例如，卷积操作是将输入的神经元或称像素与相应卷积核的权值进行乘累加处理，卷积操作占用了神经网络处理的大部分时间，因此，提高卷积操作和池化操作等的计算效率，能够有效降低神经网络的处理时间。随着神经网络运算的规模越来越大、数据吞吐量越来越高，运行功耗成为一个严重问题。

目前，大部分的深度学习应用是使用中央处理器和图形处理单元等实现的，这些技术能效不高，在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈，难以满足应用的性能要求，很难将其应用于移动电话、嵌入式电子设备等小型化轻量级设备中。

因此，需要对现有技术进行改进，以提高神经网络的计算效率并降低运行能耗。

发明内容

本发明针对卷积神经网络的网络特征和计算特征，提供一种应用于神经网络的计算方法和相应的计算装置，以及包含该计算装置的处理器，以克服上述现有技术的缺陷。

根据本发明的第一方面，提供了一种应用于神经网络的计算方法。该计算方法包括以下步骤：

步骤1：获取仅包含数值1和-1权重的二值卷积核；

步骤2：将所述二值卷积核分解为初始卷积核和特征卷积核，其中，所述初始卷积核和所述特征卷积核与所述二值卷积核的维数相同，所述初始卷积核是由数值为1的权重构成的矩阵，所述特征卷积核是相对于所述二值卷积核保留了数值为-1的权重所形成的矩阵；

步骤3：基于所述初始卷积核和所述特征卷积核执行神经网络中的卷积计算。

在一个实施例中，所述二值卷积核采用以下公式获得：

其中，z表示操作数，Binarize(z)表示映射后的值。

在一个实施例中，在步骤3中，通过以下公式执行卷积计算：

y_r＝W_s*X+W_T*X×2

其中，y_r表示卷积计算结果，W_s表示初始卷积核，X表示一个卷积域的神经元矩阵，W_T表示特征卷积核，符号*表示卷积计算符号。

根据本发明的第二方面，提供了一种应用于神经网络的计算装置。该计算装置包括：

二值卷积核获取模块：用于获取仅包含数值1和-1权重的二值卷积核；

二值卷积核分解模块：用于将所述二值卷积核分解为初始卷积核和特征卷积核，其中，所述初始卷积核和特征卷积核与所述二值卷积核的维数相同，所述初始卷积核是由数值为1的权重构成的矩阵，所述特征卷积核是相对于所述二值卷积核保留了数值为-1的权重形成的矩阵；

卷积计算模块：基于所述初始卷积核和所述特征卷积核执行神经网络中的卷积计算。

在一个实施例中，所述二值卷积核获取模块通过以下公式获得所述二值卷积核：

其中，z表示操作数，Binarize(z)表示映射后的值。

在一个实施例中，所述卷积计算模块通过以下公式执行卷积计算：

y_r＝W_s*X+W_T*X×2

其中，y_r表示卷积计算结果，W_s表示初始卷积核，X表示对应一个卷积域的神经元矩阵，W_T表示特征卷积核，符号*表示卷积计算符号。

在一个实施例中，所述卷积计算模块包括数值取反单元、多路选择单元和加法器，其中，输入数据分别通过所述数值取反单元接入至所述多路选择单元以及直接接入至所述多路选择单元，二值权重值接入至所述多路选择单元以控制所述多路选择单元的信号选通，所述多路选择单元的输出接入至所述加法器。

根据本发明的第三方面，提供了一种神经网络处理器。该处理器包括：

至少一个存储单元，用于存储数据和指令；

至少一个控制单元，用于获得保存在所述存储单元的指令并发出控制信号；

至少一个根据本发明的计算装置，用于执行神经网络中的计算。

与现有技术相比，本发明的优点在于：通过将卷积核进行二值化处理，降低的权重的位宽，从而降低了权重的存储空间；通过将二值化卷积核进行分解，并利用分解获得两个矩阵参与卷积运算，降低整个神经网络参与计算的数据，从而提高了计算效率；基于本发明计算装置的处理器，减少了存储电路的开销，也降低了片上数据传输带宽，从而有效降低了处理器的运行功耗和电路面积。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1示出了根据本发明一个实施例的神经网络模型的示意图；

图2示出了根据本发明一个实施例的卷积计算方法的流程图；

图3(a)示出了对二值化卷积核进行分解的示意图；

图3(b)示出了利用对二值化卷积核分解所获得矩阵进行卷积计算的过程；

图4示出了根据本发明一个实施例的计算装置的示意图；

图5示出了根据本发明的一个实施例的卷积计算模块的结构示意图；

图6示出了根据本发明一个实施例的神经网络处理器的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

典型地，神经网络结构包括输入层、多个隐藏层和输出层，图1示出了神经网络模型示意图，假设表示神经网络中某一层的几个节点，它们与下一层的节点y相连。表示对应连接的权重，通过函数f来计算y的取值。例如，对于卷积神经网络，其处理数据的过程由卷积层、池化层、归一化层、非线性层和全连接层等多层结构组成，其中，卷积层的操作过程是：将一个K*K大小的二维权重卷积核对输入特征图进行扫描，在扫描过程中权重与特征图内对应的卷积域的神经元求内积，并将所有内积值求和，然后通过非线性激活函数(如ReLU)处理之后，获得卷积层的输出特征图或称输出神经元并把该输出特征图传递到下一层(例如池化层)，当每个卷积层具有N个输入特征图时，会有N个K*K大小的卷积核与该卷积层内的特征图进行卷积操作。

图2示出了根据本发明一个实施例的卷积计算方法的流程图，具体包括以下步骤：

步骤S210，获取仅包含数值1和-1权重的二值卷积核。

在本文中，二值化卷积核是指用于参加卷积计算的权重已通过二值化处理，转换成了1和-1。对于已经采用1和-1表示权重的二值权重神经网络，可直接获取二值卷积核。

在一个实施例中，对于权重为正常位宽(例如，8bit、16bit等)的卷积核，可采用以下公式进行二值化处理：

其中，z表示输入操作数，在本文中指权重，Binarize(z)表示映射结果，即式(1)表达的操作可理解为，当输入操作数大于等于零时，所述操作数被二值化为1；当操作数小于零时，操作数被二值化为-1。

需要说明的是，除了采用上式(1)中的决定式的二值化方式外，还可采用其他方式进行映射，例如，通过概率方法来判断将操作数映射为1或-1。

通过将权重进行二值化处理，能够减少表示权重的位宽，例如，可采用两比特二进制数描述被二值化的权重数据，其中高位为符号位，低位为数据位，1的二进制源码为01，-1的二进制补码为11。

步骤S220，将所述二值卷积核分解为初始卷积核和特征卷积核。

将获得的二值卷积核分解为初始卷积核和特征卷积核两个矩阵，其中，初始卷积核全部由数值1构成；特征卷积核是通过将二值卷积核与初始卷积核进行比对，保留数值为-1的元素，而将数值为1的元素空余而形成的，其中，空余元素可设置为特殊字符，例如，null。

具体地，参见如图3(a)所示的分解示意图，对于二值卷积核分解后的初始卷积核为特征卷积核为尽管初始卷积核和特征卷积核均与原二值卷积核具有相同的行维数和列维数，但特征卷积核中滤除了数值为1的元素，例如，在计算过程中，对于设置为特殊字符的空余元素，不参加运算。

步骤S230，基于所述初始卷积核和所述特征卷积核执行神经网络中的卷积计算。

将二值卷积核进行分解之后，在卷积运算中，将初始卷积核与特征卷积核分别与相应卷积域的神经元进行卷积，卷积结果可表示为：

y_r＝W_s*X+W_T*X×2 (2)

具体地，参见图3(b)所示，假设输入特征图的一个卷积域的神经元矩阵为则利用分解的初始卷积核和特征卷积核进行卷积的结果为：

上述计算结果与将原二值卷积核A和神经元矩阵X直接进行卷积获得的结果相同，即：

本发明利用分解二值卷积核获得的两个矩阵参与计算的方法，能够有效的提高神经网络的计算速度，这是因为在神经网络中，每个卷积域的神经元通常需要与多个不同的卷积核进行卷积，而对于不同的卷积核，由于分解出的初始卷积核是相同的，因此，原始卷积核只需参与一次卷积计算即可。另一方面，尽管对于多个不同的卷积核，其分解出的特征卷积核都参与计算，但由于特征卷积核中滤除了数值为1的元素，相当于参与计算的元素明显减少，因此，能够提高卷积运算的速度并降低工作能耗。

相应地，本发明的卷积计算方法可以实现为计算装置，参见图4所示，该计算装置400包括二值卷积核获取模块410、二值卷积核分解模块420以及卷积计算模块430，其中，二值卷积核获取模块410用于获取仅包含数值1和-1权重的二值卷积核；二值卷积核分解模块420用于将所述二值卷积核分解为初始卷积核和特征卷积核；卷积计算模块430用于基于所述初始卷积核和所述特征卷积核执行神经网络中的卷积计算。

进一步地，本发明提供了一种适用于二值化权重神经网络的卷积计算模块，参见图5所示。该卷积计算模块由数值取反单元510、多路选择单元520和加法器单元530组成。输入数据(例如，卷积神经网络中的一层的节点值或称神经元)接入到数值取反单元510并直接接入到多路选择单元520的一个输入端，数值取反单元510接入至多路选择单元520的另一个输入端，权重接入至多路选择单元520作为选通信号控制多路选择单元520，多路选择单元520的输出结果接入至加法器单元530，加法器单元530的输出结果作为卷积计算模块的输出结果。

具体地，在正数采用原码表示，负数采用补码表示的情况下，数值取反单元510可将输入数据做数值取反处理。例如，对于具有符号位的二进制正数0101(+5)，输入至数值取反单元510后输出的二进制补码为1011(-5)；对于采用补码表示的具有符号位的二进制负数1010(-6)，输入至数值取反单元510后输出的二进制数为0110(+6)。

在卷积计算模块中，原始输入数据和经过数值取反后的数据接入至多路选择单元520中，当权重值为-1时，多路选择单元520输出经过数值取反后的输入数据，当权重值为1时，多路选择单元520输出原始输入数据。加法器单元用于完成卷积运算中加法操作。

具体地，当采用本发明的卷积计算模块时，以卷积神经网络某一层的y＝x₀×w₀+x₁×w₁+x₂×w₂为例，当w0为1、w1为-1、w2为1时，则y可以表示为y＝x₀-x₁+x₂，即乘加运算过程转化为加减运算。

图6示出了基于本发明计算装置的神经网络处理器的示意图。概括而言，本发明提供的神经网络处理器基于存储-控制-计算的结构。

存储结构用于存储神经网络处理系统外部传来的数据(例如，原始特征图数据)或用于存储处理过程中产生的数据，包括处理过程中产生的处理结果或中间结果，这些结果可以来自于神经网络处理器内部的核心运算部件或其他外部运算部件。存储结构还可用于存储参与计算的指令信息(例如，载入数据至计算单元、计算开始、计算结束、或将计算结果存储至存储单元等)。存储单元可以是静态随机存储器(SRAM)、动态随机存储器(DRAM)、寄存器堆等常见存储介质，也可以是3D存储器件等新型的存储类型。

具体地，图6的存储结构根据存储数据的类型不同，划分成多个存储单元，即输入数据存储单元611、权重存储单元612、指令存储单元613和输出数据存储单元614，其中，输入数据存储单元611用于存储参与计算的数据，该数据包括原始特征图数据和参与中间层计算的数据；权重存储单元612用于存储已经训练好的神经网络权重；指令存储单元613用于存储参与计算的指令信息，指令可被控制单元620解析为控制流来调度神经网络的计算；输出数据存储单元614用于存储计算得到的神经元响应值。通过将存储单元进行细分，可将数据类型基本一致的数据集中存储，以便于选择合适的存储介质并可以简化数据寻址等操作。

控制结构(即控制单元620)用于获取保存在存储单元的指令并进行解析，进而根据解析得到的控制信号来控制神经网络的相关运算。控制结构完成指令译码、数据调度、过程控制等工作。

计算结构包括至少一个本发明的计算装置(示出为N个)，用于参与该处理器中的神经网络计算，保证数据在计算装置中能够正确地与相应权重进行计算。

本领域的技术人员应理解的是，尽管图6未示出，该处理器还包括地址寻址功能，用于将输入的索引映射到正确的存储地址，以从存储单元中获得需要的数据或指令，地址寻址功能可以实现在控制单元620中或以独立单元的形式实现。

需要说明的是，图6所示的处理器的计算装置，除了能够完成本发明的卷积计算之外，还可实现神经网络中的大部分计算，例如激活处理、池化操作、归一化操作等，这些属于现有技术，在此不再赘述。

本发明的卷积神经网络处理器可应用了各种电子设备，例如、移动电话、嵌入式电子设备等。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种应用于神经网络的计算方法，包括以下步骤：

步骤1：获取仅包含数值1和-1权重的二值卷积核；

2.根据权利要求1所述的计算方法，其中，在步骤1中，所述二值卷积核采用以下公式获得：

其中，z表示操作数，Binarize(z)表示映射后的值。

3.根据权利要求1所述的计算方法，其中，在步骤3中，通过以下公式执行卷积计算：

y_r＝W_s*X+W_T*X×2

4.一种应用于神经网络的计算装置，其特征在于，包括：

5.根据权利要求4所述的计算装置，其特征在于，所述二值卷积核获取模块通过以下公式获得所述二值卷积核：

其中，z表示操作数，Binarize(z)表示映射后的值。

6.根据权利要求4所述的计算装置，其特征在于，所述卷积计算模块通过以下公式执行卷积计算：

y_r＝W_s*X+W_T*X×2

7.根据权利要求4所述的计算装置，其特征在于，所述卷积计算模块包括数值取反单元、多路选择单元和加法器，其中，输入数据分别通过所述数值取反单元接入至所述多路选择单元以及直接接入至所述多路选择单元，二值权重值接入至所述多路选择单元以控制所述多路选择单元的信号选通，所述多路选择单元的输出接入至所述加法器。

8.一种神经网络处理器，包括：

至少一个存储单元，用于存储数据和指令；

至少一个根据权利要求4至7任一项所述的计算装置，用于执行神经网络中的计算。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至3中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至3中任一项所述的方法的步骤。