CN107766292B

CN107766292B - 一种神经网络处理方法及处理系统

Info

Publication number: CN107766292B
Application number: CN201711038320.6A
Authority: CN
Inventors: 韩银和; 闵丰; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2020-12-29
Anticipated expiration: 2037-10-30
Also published as: CN107766292A

Abstract

本发明提供一种神经网络处理方法和处理系统。该处理方法包括以下步骤：基于池化参数确定相对于原卷积域的增大卷积域；将所述增大卷积域划分为多个子卷积域，其中，每个子卷积域的尺寸与原卷积域的尺寸相等；执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算，以获得多个子卷积结果；对所述多个子卷积结果执行池化处理。利用本发明的处理方法能够提高数据处理的效率和资源利用率。

Description

一种神经网络处理方法及处理系统

技术领域

本发明涉及深度学习技术领域，尤其涉及一种用于神经网络的处理方法及处理系统。

背景技术

近年来，深度学习技术得到了飞速的发展，在解决高级抽象认知问题，例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐和智能机器人等领域得到了广泛应用，成为学术界和工业界的研究热点。

深度神经网络是人工智能领域具有最高发展水平的感知模型之一，该类网络通过建立模型模拟人类大脑的神经连接结构，通过多个变换阶段分层对数据特征进行描述，为图像、视频和音频等大规模数据处理任务带来突破性进展。深度神经网络模型结构是一种运算模型，由大量节点通过网状互连结构构成，这些节点被称为神经元。每两个节点间连接强度都代表通过该连接信号在两个节点间的加权重，即权重，与人类神经网络中的记忆相对应。

然而，实现深度学习技术依赖于极大的计算量。在训练阶段，需要在海量数据中通过反复迭代计算得到神经网络中的权重数据；在推理阶段，同样需要神经网络在极短的响应时间(通常为毫秒级)内完成对输入数据的运算处理。神经网络中涉及的计算主要包括卷积操作、池化操作等，例如，卷积操作是将输入的神经元或称像素与相应卷积核的权值进行乘累加处理，卷积操作和池化操作占用了神经网络处理的大部分时间，因此，提高卷积操作和池化操作的计算效率，能够有效降低神经网络的处理时间。随着神经网络运算的规模越来越大、数据吞吐量越来越高，运行功耗成为一个严重问题。

因此，需要对现有技术进行改进，以提高神经网络的计算效率并降低运行能耗。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种神经网络的处理方法和处理系统，以提高数据处理的效率和缓存利用率。

根据本发明第一方面，提供了一种神经网络处理方法。该处理方法包括以下步骤：

步骤1：基于池化参数确定相对于原卷积域的增大卷积域；

步骤2：将所述增大卷积域划分为多个子卷积域，其中，每个子卷积域的尺寸与原卷积域的尺寸相等；

步骤3：执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算，以获得多个子卷积结果；

步骤4：对所述多个子卷积结果执行池化处理。

在一个实施例中，所述增大卷积域的边长是L＝l+(q-1)*s，其中，L表示增大卷积域的边长，l表示原卷积域的边长，s表示原卷积步长，q表示池化参数中的池化域边长。

在一个实施例中，以相对于原卷积步长增大的卷积步长和所述增大卷积域对神经网络的输入特征图进行扫描，以获得卷积层的输出神经元，其中，所述增大的卷积步长为S＝s*q，S表示增大的卷积步长，s表示原卷积步长，q表示池化参数中的池化域边长。

根据本发明的第二方面，提供了一种神经网络处理系统。该处理系统包括：

控制单元：基于池化参数确定相对于原卷积域的增大卷积域以及将所述增大卷积域划分为多个子卷积域，其中，每个子卷积域的尺寸与原卷积核的尺寸相等；

卷积单元：用于执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算，以获得多个子卷积结果；

池化单元：用于对所述多个子卷积结果执行池化处理。

在本发明的神经网络处理系统中，所述增大卷积域的边长是L＝l+(q-1)*s，其中，L表示增大卷积域的边长，l表示原卷积域的边长，s表示原卷积步长，q表示池化参数中的池化域边长。

在本发明的神经网络处理系统中，以相对于原卷积步长增大的卷积步长和所述增大卷积域对神经网络的输入特征图进行扫描，以获得卷积层的输出神经元，其中，所述增大的卷积步长为S＝s*q，S表示增大的卷积步长，s表示原卷积步长，q表示池化参数中的池化域边长。

在本发明的神经网络处理系统中，所述卷积单元包括多个卷积模块，一个卷积模块用于执行一个所述子卷积域的神经元与相应卷积核权值的卷积运算。

在本发明的神经网络处理系统中，所述控制单元每周期调用与所述多个子卷积域数量相等的所述卷积模块，以并行执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算。

与现有技术相比，本发明的优点在于：通过相对于原卷积域增大卷积域，增加了每次进行卷积运算的神经元数量；通过基于池化参数确定增大卷积域的尺寸和将增大卷积域划分为多个子卷积域，实现每周期对属于相同池化域的神经元进行卷积、激活和池化处理，保证了计算过程的资源合理配置，从而提升了数据处理效率与缓存利用率。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1示出了根据本发明一个实施例的神经网络处理方法的流程图；

图2示出了根据本发明一个实施例将原卷积域进行扩大的原理示意图；

图3示出了根据本发明一个实施例的神经网络处理系统的示意图；

图4示出了图3的神经网络处理系统的工作流程图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

典型地，深度神经网络具有多层神经网络的拓扑结构，并且每层神经网络具有多个特征图层。例如，对于卷积神经网络，其处理数据过程由卷积层、池化层、归一化层、非线性层和全连接层等多层结构组成，例如，卷积层的具体操作过程是：将一个K*K大小的二维权重卷积核对输入特征图进行扫描，在扫描过程中权重与特征图内对应的神经元求内积，并将所有内积值求和，然后通过非线性激活函数(如ReLU)处理之后，获得卷积层的输出特征图或称输出神经元并把该输出特征图传递到下一层(例如池化层)，当每个卷积层具有N个输入特征图时，会有N个K*K大小的卷积核与该卷积层内特征图进行卷积操作；池化层又称为下采样层，其具体操作过程是：将一个P*P大小的二维窗口对特征图(例如卷积层的输出特征图)进行扫描，在扫描过程中计算窗口在图层对应数据中的最大值或平均值，得到池化层的输出神经元，池化层一方面可以消除部分噪声信息，有利于特征提取，另一方面也可以减少下一层特征元素的数量，减小网络规模。

为了提高上述卷积过程和池化过程的计算效率，本发明提供了一种改进的神经网络处理方法。参见图1所示，该处理方法具体包括以下步骤：

步骤S110，基于池化参数确定相对于原始卷积域增大的卷积域。

在此步骤中，根据原始的卷积参数和池化参数来确定新的卷积域，该新的卷积域范围大于原始卷积域，在本文中也称作增大卷积域。卷积参数包括卷积域边长、卷积步长等，池化参数包括池化域的边长等。

在一个实施例中，将增大卷积域的边长确定为L＝l+(q-1)*s，其中，L表示增大卷积域的边长，l表示原卷积域的边长，s表示原卷积步长，q表示池化域边长。例如，当原卷积域边长为3、原卷积步长为2、池化域边长为2时，则增大卷积域边长等于5，即增大卷积域范围是5x5。

在此步骤S110中，确定增大卷积域的目的是，对输入特征图进行扫描卷积时，每次针对增大卷积域范围的神经元执行卷积运算。为了更清楚的理解本发明，图2示意了本发明将原始卷积域进行扩大的原理，假设原卷积域尺寸为3x3、卷积步长为2、有3个输入特征图、池化域尺寸是2x2，图2(a)示出的是采用现有方法以原卷积域3x3、卷积步长2，对3个输入特征图进行卷积的效果，即对于一个输入特征图，每次用3x3卷积核权值和原卷积域范围内的3x3个神经元执行卷积运算；图2(b)示意了以增大卷积域5x5执行卷积和池化的效果，即增大卷积域包含的神经元数目是25，在该示例中，将增大卷积域执行卷积的过程等效为对4个子卷积域，以原卷积步长2进行并行卷积的过程，其中，每个子卷积域的尺寸等于原卷积域尺寸，即该四个子卷积域包含的神经元数目是3x3x4＝36，存在复用的神经元，神经元复用数目为36-25＝9，并且在该示例中，在进行卷积运算之后，每个子卷积域获得一个输出神经元或称池化神经元，所有四个子卷积域的输出神经元属于同一池化域；经过图2(b)的等效处理之后，相当于以卷积域5x5、卷积步长4对输入特征图进行扫描卷积，即图2(c)所示的效果。因此，通过这种方式，在不影响卷积和池化效果的情况下，能够显著降低卷积的移动次数并且在对子卷积域进行卷积运算过程中存在复用的神经元。例如，假设传统卷积方法中的输出特征图边长为m*m，池化输出特征图边长为p*p，则传统卷积方法中单一特征图的卷积移动次数为m*m，而在本发明的处理方法中，卷积移动次数为p*p。

步骤S120，对增大的卷积域范围内的多个子卷积域执行卷积运算和激活处理。

将增大卷积域划分为多个子卷积域，其中，每个子卷积域的尺寸与原卷积域或原卷积核的尺寸相等，将多个子卷积域分别与相应的原卷积核权值计算卷积运算和激活处理，以获得每个子卷积域的计算结果。

在一个实施例中，增大卷积域范围内划分的子卷积域数目与池化域神经元数目相等。在这种情况下，通过并行处理多个子卷积域的卷积和激活运算，在一个周期可获得属于同一池化域的神经元。

在另一实施例中，当每个周期获得的输出神经元不属于同一池化域时，可将输出神经元进行缓存。

步骤S130，对多个子卷积域的计算结果进行池化处理。

对多个子卷积域的计算结果进行池化处理，例如，可采用最大值法或平均值法获得池化结果。

相应地，当步骤S120每周期可输出属于同一池化域的神经元时，可直接将输出神经元进行池化处理，以减少缓存空间和池化单元的等待时间。

上述步骤S110、S120和S130描述了针对一个增大卷积域进行卷积、激活和池化的处理过程，类似地，可获得整个卷积层的输出神经元。例如，过程包括：以新的卷积步长(或称增大的卷积步长)和增大卷积域在每个输入特征上横向移动，当移动至该特征图边界时，则向下移动，获得每个输入特征图的卷积结果；累加3个输入特征图的卷积结果并进行激活处理，从而获得卷积层的输出神经元。

在一个实施例中，增大的卷积步长为是S＝s*q，其中，S表示增大的卷积步长，s表示原卷积步长，q表示池化域边长。

应理解的是，尽管上述以优选实施例的方式介绍了增大卷积域的原理和过程，但本发明并不排除以其它方法来确定增大的卷积域、增大的卷积步长以及子卷积域数目，例如，对于原卷积域3x3，也可将增大卷积域确定为7x7，在该7x7范围内划分为6个子卷积域，此时，也能达到降低卷积移动次数和神经元复用的目的。

图3示出了根据本发明一个实施例的神经网络处理系统的示意图。该处理系统300包括输入数据存储单元302、控制单元303、输出数据存储单元304、权重存储单元305、输入数据缓存单元306、权重缓存单元307、输出缓存单元308、卷积单元309(示出了包括多个卷积模块)、池化单元310(示出为包括多个池化模块PM1至PMl)。

输入数据存储单元302与输入数据缓存单元306相连，用于存储参与计算的数据，该数据包括原始特征图数据、参与中间层计算的数据以及各层的卷积参数与池化参数。

权重存储单元305与权重缓存单元307相连，用于存储已经训练好的权重数据。

卷积单元309接收输入数据缓存单元302与权重缓存单元307的神经元和权值并执行卷积操作。

池化单元310与卷积单元309相连，用于池化卷积单元输出的神经元，并将池化后的结果传递至输出缓存单元308。

输出缓存单元308用于存储池化后的神经元。

输出数据存储单元304与输出缓存单元308相连，用于存储池化后的批量输出结果。

控制单元303与输入数据存储单元302、权重存储单元305、卷积单元310、输出缓存单元308、池化单元310、输出数据存储单元304相连，控制单元303获得卷积与池化的相关参数，以控制各单元进行神经网络的数据传输与计算。

图3的处理系统300可应用于训练好的神经网络模型，对待测的目标神经元的输出进行预测，为了进一步理解本发明，仍以原卷积域为3x3、原卷积步长为2、具有3个输入特征图、池化域2x2为例，介绍图3的神经网络处理系统300的数据处理过程，具体包括以下步骤(参见图4所示)：

步骤S410，将权重和目标神经元加载到相应的存储单元。

此步骤S410完成数据的初始加载，具体地，将已训练好的权值和待测的目标神经元分别存储在权重存储单元305和输入数据存储单元302，并将相关的卷积参数和池化参数也载入到输入数据存储单元302，例如，卷积参数包括原卷积域的尺寸、原卷积的步长等，池化参数包括池化域尺寸、池化原则等。

步骤S420，确定增大的卷积域并基于增大卷积域将权重和神经元加载至相应的缓存单元。

首先，控制单元303根据图1实施例所描述的方法来确定增大卷积域，例如，增大卷积域范围为5x5，每个增大卷积域范围的神经元分为4个子卷积域，各个子卷积域的尺寸3x3，以卷积核3x3对各个子卷积域进行卷积。

然后，对于每个输入特征图，以原卷积核3x3的规模将权值分组载入至相应权重缓存单元307，即每个权值组包括3x3个权值；对于所有3个输入特征，依据增大卷积域将神经元分组载入到输入数据缓存单元306，即每个神经元组的规模是5x5x3。在此过程中，将各输入特征图属于相同位置的子卷积神经元在缓存中归类存储，例如，将4个子卷积域的神经元分为4个存储区域，这种方式有利于后续卷积运算时对输入数据快速分配。此外，为了复用权值与神经元，可将各数据使用后继续保存于缓存中。

步骤S430，执行卷积运算和激活处理。

控制单元303控制神经元和权值向卷积单元309的加载。例如，每周期从输入数据缓存单元306加载增大卷积域范围的神经元数目(例如，加载25个神经元)，从权重缓存单元307中加载一组卷积核的权值。

假设卷积单元309的每个卷积模块，在一个周期可完成一个子卷积域的计算结果，控制单元303可将四个子卷积域的神经元分别传输至卷积单元309的对应的四个卷积模块的输入端，从而保证一个周期能够并行完成增大卷积域范围的计算结果。

在此实施例中，通过对增大卷积域范围的4个子卷积域并行执行卷积运算，能够保证每个周期获得属于同一池化域的输出神经元，以将输出神经元直接加载到池化单元310。

在另一实施例中，可在获得整个卷积层的输出神经元之后再选择属于同一池化域的神经元进行池化处理。例如，卷积单元309的计算过程包括：将增大卷积域的各子卷积域神经元分别传输至同一组卷积核权值对应的4个卷积模块，执行卷积运算；以新的卷积步长，即2x2，将增大卷积域横向移动，当移动至输入特征图边界则向下移动；累加3个输入特征图的卷积结果并进行激活处理，以获得卷积层的输出神经元。具体地，对于三个输入特征图的每一个，每周期加载5x5个神经元，所加载的三个输入特征图的共75个神经元在内部复用后，分为四个子卷积域，子卷积域每个特征图为3x3，三个特征图共有等效神经元108个(3x3x3x4)，将该等效神经元分配至4个卷积模块中，每个卷积模块完成一个子卷积域神经元和一组原卷积核的权值的卷积操作。

步骤S440，对卷积结果进行池化处理。

在此步骤S440中，池化单元310接收卷积单元309的输出结果，对各输出结果进行池化处理并将池化后的结果传递至输出缓存单元308。

例如，池化单元310接收由4个卷积模块传输的卷积结果(该4个输出结果属于同一池化域)，然后，以例如最大值原则进行池化处理，并将池化结果传输至输出缓存单元308。

步骤S450，将池化结果批量加载到输出数据存储单元。

控制单元303依据输出缓存单元308中神经元数据的分布和下一级卷积参数，将池化结果批量输出至数据输出存储单元304。例如，控制单元303分析池化缓存单元308内神经元的分布状态，当其分布满足下一层卷积参数分布时，将其神经元值批量存入输出数据存储单元304。

综上所述，在本发明的神经网络处理系统中，通过将增大卷积域范围划分为多个子卷积域，并对该多个子卷积域进行并行处理，一方面降低了卷积移动步长，另一方面通过并行处理过程中的神经元复用提高了数据处理的效率。此外，控制单元通过调用合适的计算资源可保证卷积层在每个周期输出属于同一池化域的神经元，直接传递给池化单元，从而减少了在池化处理之前，对卷积层输出神经元的缓存，并减少了池化单元的等待时间。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种神经网络处理系统，包括输入数据存储单元、输出数据存储单元、权重存储单元、控制单元、卷积单元、池化单元、输入数据缓存单元、权重缓存单元、输出缓存单元，其中：

输入数据存储单元与输入数据缓存单元相连，用于存储参与计算的数据，该数据包括原始特征图数据、参与神经网络中间层计算的数据以及各层的卷积参数与池化参数；

权重存储单元与权重缓存单元相连，用于存储已经训练好的权重数据；

卷积单元接收输入数据缓存单元与权重缓存单元的神经元和权值并执行卷积操作；

池化单元与卷积单元相连，用于池化卷积单元输出的神经元，并将池化后的结果传递至输出缓存单元；

输出缓存单元用于存储池化后的神经元；

输出数据存储单元与输出缓存单元相连，用于存储池化后的批量输出结果；

控制单元与输入数据存储单元、权重存储单元、卷积单元、输出缓存单元、池化单元、输出数据存储单元相连，其获得卷积与池化的相关参数，以控制各单元进行神经网络的数据传输与计算；

以及其中控制单元被配置为用于：基于池化参数确定相对于原卷积域的增大卷积域，其中所述增大卷积域的边长是L＝l+(q-1)*s，其中，L表示增大卷积域的边长，l表示原卷积域的边长，s表示原卷积步长，q表示池化参数中的池化域边长；以相对于原卷积步长增大的卷积步长和所述增大卷积域对神经网络的输入特征图进行扫描并载入输入数据缓存单元，其中所述增大的卷积步长为S＝s*q，S表示增大的卷积步长；以及将输入数据缓存单元中所述增大卷积域范围的神经元划分为多个子卷积域，各子卷积域之间存在复用的神经元，以及将各子卷积域的神经元与相应卷积核权值传输至卷积单元，其中，每个子卷积域的尺寸与原卷积核的尺寸相等；其中控制单元将所述多个子卷积域的神经元与相应卷积核权值加载至卷积单元；

卷积单元被配置为用于执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算，以获得多个子卷积结果；所述卷积单元包括多个卷积模块，一个卷积模块用于执行一个所述子卷积域的神经元与相应卷积核权值的卷积运算；

池化单元被配置为用于对于来自所述卷积单元输出的所述多个子卷积结果执行池化处理，并池化处理的结果传递至输出缓存单元。

2.根据权利要求1所述的神经网络处理系统，其特征在于，所述控制单元每周期调用与所述多个子卷积域数量相等的所述卷积模块，以并行执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算。

3.一种基于权利要求1所述的神经网络处理系统的神经网络处理方法，包括以下步骤：

步骤1：由控制单元基于池化参数确定相对于原卷积域的增大卷积域，其中所述增大卷积域的边长是L＝l+(q-1)*s，其中，L表示增大卷积域的边长，l表示原卷积域的边长，s表示原卷积步长，q表示池化参数中的池化域边长；

步骤2：由控制单元以相对于原卷积步长增大的卷积步长和所述增大卷积域对神经网络的输入特征图进行扫描并载入输入数据缓存单元，其中所述增大的卷积步长为S＝s*q，S表示增大的卷积步长；

步骤3：由控制单元将输入数据缓存单元中所述增大卷积域范围的神经元划分为多个子卷积域，其中，每个子卷积域的尺寸与原卷积域的尺寸相等，各子卷积域之间存在复用的神经元，以及将各子卷积域的神经元与相应卷积核权值传输至卷积单元；

步骤4：由卷积单元执行所述多个子卷积域的神经元与相应卷积核权值的卷积运算，以获得多个子卷积结果；

步骤5：由池化单元对所述多个子卷积结果执行池化处理，并池化处理的结果传递至输出缓存单元。

4.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求3所述方法的步骤。

5.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求3所述的方法的步骤。