CN114662647A

CN114662647A - 处理用于神经网络的层的数据

Info

Publication number: CN114662647A
Application number: CN202111560781.6A
Authority: CN
Inventors: 约翰·韦克菲尔德·布拉泽斯三世; 卡蒂克亚·巴德瓦吉; 亚历山大·尤金·查尔芬; 丹尼·德桑·洛赫
Original assignee: ARM Ltd
Current assignee: ARM Ltd
Priority date: 2020-12-23
Filing date: 2021-12-20
Publication date: 2022-06-24
Also published as: GB2604709A; US20220198243A1; GB2604709B

Abstract

本发明题为“处理用于神经网络的层的数据。”本发明描述了一种使用数据处理系统处理用于神经网络的给定层的输入数据的方法，该数据处理系统包括用于执行卷积计算的计算资源。该输入数据包括给定的一组输入特征图IFM和给定的一组滤波器。该方法包括生成一组部分IFM，该组部分IFM包括与该给定的一组IFM中的相应IFM对应的多个部分IFM。该方法还包括将该组部分IFM中的部分IFM分组成一组部分IFM选择。该方法还包括通过该数据处理系统的相应计算资源将该组选择与该给定的一组滤波器卷积来计算一组部分输出特征图。本发明还描述了一种用于处理用于神经网络的给定层的输入数据的数据处理系统。

Description

处理用于神经网络的层的数据

背景技术

技术领域

本公开涉及处理数据。具体地但非唯一地，本公开涉及使用包括多个计算资源的数据处理系统处理用于神经网络的层的输入数据。

相关技术说明

神经网络已成为用于图像处理、推断、机器学习和相关任务的强大工具。神经网络可包括一个或多个卷积层。例如，卷积神经网络(CNN)通常包括多个卷积层。在卷积层中，通过输入数据阵列(被称为输入特征图(IFM))和一个或多个滤波器(也被称为内核)之间的卷积来计算输出数据阵列(被称为输出特征图(OFM))。每个输出特征图包含多个元素，其中每个元素经由数据阵列的元素的子集与内核的相应权重值之间的一系列卷积计算来计算。神经网络还可包括其他层类型，例如完全连接(FC)层、去卷积层、递归层等。

就处理时间而言和就在寄存器内切换位所需的功率而言，卷积计算占了执行推断或训练神经网络的计算成本的很大部分。由于这些计算在推断或训练期间重复执行，因此已经开发了被称为硬件加速器的专用集成电路。

神经处理单元(NPU)是专门用于根据神经网络(例如，卷积神经网络(CNN))处理数据的硬件加速器。NPU还可被称为神经网络加速器(NNA)、卷积神经网络加速器(CNNA)、机器学习加速器或人工智能加速器。NPU包括专用卷积引擎(CE)的阵列，这些专用卷积引擎各自包含例如乘法累加(MAC)硬件以执行卷积运算。

发明内容

根据第一方面，提供了一种使用数据处理系统处理用于神经网络的给定层的输入数据的方法，该数据处理系统包括用于执行卷积计算的计算资源，该输入数据包括给定的一组输入特征图IFM和给定的一组滤波器。该方法包括执行处理用于给定层的输入数据的计算性能改进方法，包括：生成一组部分IFM，该组部分IFM包括与给定的一组IFM中的第一IFM对应的第一多个部分IFM和与给定的一组IFM中的第二IFM对应的第二多个部分IFM。该方法还包括将该组部分IFM中的部分IFM分组成一组部分IFM选择，包括：至少选择来自第一多个部分IFM的第一部分IFM和来自第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择，并且至少选择来自第一多个部分IFM的第三部分IFM和来自第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择。该方法还包括通过该数据处理系统的相应计算资源将该组选择与该给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。

根据第二方面，提供了一种数据处理系统。该数据处理系统包括多个计算资源和存储装置，该存储装置用于根据神经网络的层存储数据。该数据包括一组输入特征图IFM和一组滤波器。该存储元件耦接到数据处理系统。该数据处理系统被配置为生成一组部分IFM，该组部分IFM包括与给定的一组IFM中的第一IFM对应的第一多个部分IFM和与给定的一组IFM中的第二IFM对应的第二多个部分IFM。该数据处理系统被进一步配置为将该组部分IFM中的部分IFM分组成一组部分IFM选择，包括：至少选择来自第一多个部分IFM的第一部分IFM和来自第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择，并且至少选择来自第一多个部分IFM的第三部分IFM和来自第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择。该数据处理系统被进一步配置为通过该多个计算资源中的相应计算资源将该组选择与给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。

根据第三方面，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质包括计算机可执行指令，这些计算机可执行指令当由至少一个处理器执行时使该至少一个处理器：生成一组部分IFM，该组部分IFM包括与给定的一组IFM中的第一IFM对应的第一多个部分IFM和与给定的一组IFM中的第二IFM对应的第二多个部分IFM；将该组部分IFM中的部分IFM分组成一组部分IFM选择，包括：至少选择来自第一多个部分IFM的第一部分IFM和来自第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择，并且至少选择来自第一多个部分IFM的第三部分IFM和来自第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择；并且通过数据处理系统的相应计算资源将该组选择与给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。

附图说明

图1示意性地示出了输入数据阵列和内核之间的用于生成输出数据阵列的元素的数据处理操作；

图2示意性地示出了根据示例的被配置为执行数据处理操作的计算系统；

图3示意性地示出了图2的计算系统内的神经处理单元(NPU)；

图4是示出根据示例的用于处理数据的方法的流程图。

图5A是根据示例的卷积神经网络的卷积层。

图5B是对图5A的卷积神经网络的卷积层的示例性第一操作。

图5C是对图5A的卷积神经网络的卷积层的示例性第二操作。

图6是根据示例的计算机可读存储介质。

具体实施方式

参考附图，根据示例的系统和方法的细节将从以下描述中变得明显。在本说明书中，出于解释的目的，阐述了某些示例的许多具体细节。本说明书中对“示例”或类似语言的引用意指结合该示例描述的特征、结构或特性包括在至少该一个示例中，但不一定包括在其他示例中。还应当注意，示意性地描述了某些示例，其中省略了某些特征并且/或者必须简化了某些特征，以便于解释和理解示例所基于的概念。

本文描述的某些示例涉及一种使用数据处理系统处理用于神经网络的给定层的输入数据的方法，该数据处理系统包括用于执行卷积计算的计算资源，该输入数据包括给定的一组输入特征图(IFM)和给定的一组滤波器，该方法包括执行处理用于给定层的输入数据的计算性能改进方法。该方法涉及从该组IFM生成多个部分IFM，以及由数据处理系统的相应计算资源卷积部分IFM中的每个部分IFM。通过生成和卷积比存在的相应IFM更多的部分IFM，可利用数据处理系统的更多计算资源。这种提高的利用率可通过利用数据处理系统对该多个计算资源并行运行计算的能力来改善操作性能。

图1示出了输入数据阵列100和滤波器102之间的用于生成输出数据阵列104的卷积的示例。在本示例中，输入数据阵列100是具有多个通道的三维阵列，每个通道包括在下文被称为数据值的数值数据元素的平面阵列。通道的数量被称为输入数据阵列100的深度。例如，彩色图像可由三维阵列表示，其中不同平面内位置表示不同像素并且不同平面切片表示不同颜色通道。滤波器102是与输入数据阵列100具有相同深度的另外的三维阵列。滤波器102包括堆叠在一起的尺寸为w×h的d二维阵列。d二维阵列中的每个二维阵列将在本文中被称为内核。滤波器102的元素被称为权重值。输入数据阵列100包括堆叠在一起的d二维阵列。输入数据阵列中的d二维阵列中的每个二维阵列将被称为输入特征图(IFM)。根据本文，IFM可以指CNN的第一层中的输入数据(例如，图像)或到CNN的后续层的输入数据(例如，来自CNN的先前层的输出)。在此示例中，d＝8，w＝3，h＝3。应当理解，在不脱离本发明的范围的情况下，滤波器的其他尺寸和形状是可能的。例如，表示RGB图像的输入数据可包括每个输入数据阵列的三个IFM，红色数据、绿色数据和蓝色数据中的每一者一个IFM。输出数据阵列104是二维数据阵列。

卷积被定义成使得针对滤波器102相对于输入数据阵列100的给定位置，执行乘法累加(MAC)运算，其中滤波器102的每个权重值乘以输入数据阵列100的重合数据值，并且将所得乘积求和以生成输出数据阵列104的元素106。针对滤波器102的给定位置，由此在滤波器102和输入数据阵列100的相应子阵列之间计算点积。为了生成整个输出数据阵列104，针对滤波器102相对于输入数据阵列100的预先确定的一组位置中的每个位置执行该点积运算，其中这些预先确定的位置由在阵列的每个平面内方向上的固定数量的元素(被称为步长)分开。在本示例中，步长在每个方向为1，使得滤波器102相对于输入数据阵列100的相邻位置彼此相邻。在此示例中，采用零填充，使得输入数据阵列100被宽度/高度为两个元素的边界(未示出)包围，其中所有元素被设置为零。该零填充确保输出数据阵列104具有与输入数据阵列100相等的平面内尺寸。在其他示例中，可使用其他类型的填充。此外，可完全省略填充并且/或者可在平面内尺寸中使用大于1的步长，在这种情况下，输出数据阵列104将具有比输入数据阵列100更小的平面内尺寸。

卷积运算诸如上文所描述的卷积运算通常用于在卷积神经网络(CNN)的训练期间或一旦已经训练了CNN就在推断期间在CNN的卷积层内生成输出特征图。在给定卷积层中，通过执行包括多个输入特征图(IFM)的三维数据阵列和相应滤波器之间的卷积来生成三维输出特征图(OFM)的每个平面切片，其中不同的OFM具有不同的多组滤波器。OFM可以指示与给定任务相关的相应的一组特征，例如在计算机视觉或其他图像处理任务中。不同的滤波器导致不同的多组特征，并且尽管给定内核的权重值可以是预先确定的，但是对于大多数应用，权重值可能是与CNN的其他参数诸如偏差一起在训练阶段期间学习的。不同尺寸的内核允许从每个IFM捕获不同类型的特征。较大的内核可能够比较小的内核捕获更多的表达特征，但是对于许多应用，感兴趣的特征是高度局部的，并且因此能够使用小内核(诸如尺寸为3×3的内核)来捕获。所生成的OFM通常将经受进一步的处理操作，例如应用激活函数并任选地进行池化，然后传递到CNN的后续层。因此，经处理的OFM可成为用于CNN的后续层的IFM。后续层可以是例如另一个卷积层、去卷积层或完全连接层。

图2示出了被布置成根据给定神经网络架构执行层处理的计算系统200的示例。数据处理系统200包括连接到中央处理单元(CPU)204和存储器206的系统总线202。存储器206包括易失性存储器(包括动态随机存取存储器(DRAM)，诸如同步动态随机存取存储器(SDRAM))，以及非易失性存储器和存储装置，例如闪存存储器、固态驱动器(SSD)和非易失性随机存取存储器(NVRAM)。系统总线202还可连接到图2中未示出的其他部件，例如输入/输出设备、图形处理单元(GPU)、网络接口等。数据处理系统200还包括神经处理单元(NPU)208，该NPU是用于根据神经网络架构例如卷积神经网络(CNN)架构处理数据的专用集成电路。NPU还可被称为神经网络加速器(NNA)、卷积神经网络加速器(CNNA)、机器学习加速器或人工智能加速器。

NPU 208包括控制单元210，该控制单元包括被布置成生成用于多个卷积引擎或计算资源212.1、212.2、…、212.N(统称为卷积引擎212)的控制数据的处理电路。在本示例中，NPU 208包括N＝16卷积引擎212，但是应当理解，在不脱离本发明的范围的情况下，可采用不同数量的卷积引擎212。NPU 208被布置成使用直接存储器存取(DMA)214从存储器206检索数据。从存储器206接收的数据可包括例如图像数据或IFM数据，以及与给定神经网络层相关联的权重数据，以及任何其他参数诸如偏差。NPU 208被进一步布置成使用DMA 214将数据诸如OFM数据写入存储器206。

图3更详细地示出了NPU 208，包括卷积引擎212.1的部件。其他卷积引擎212.2、…、212.N包括与卷积引擎212.1基本上相同的部件。卷积引擎212.1包括存储器302，该存储器在该示例中包括静态随机存取存储器(SRAM)。卷积引擎212.1还包括MAC计算引擎(MCE)304，该MCE被布置成处理从存储器302和从其他卷积引擎212的类似存储器接收的数据。MCE 304包括用于执行针对神经网络架构实施层处理所必需的MAC运算的部件。具体地，NPU 208具有被布置成用于IFM或其他数据阵列和内核之间的卷积(或去卷积)的优化具体实施的部件，以生成OFM数据的切片，如下文将更详细地描述。

卷积引擎212.1还包括被布置成对由MCE 304生成的OFM数据的切片执行附加处理操作(包括例如池化运算并应用激活函数)的后计算资源306。后计算资源306可被编程为对给定神经网络内的不同层执行不同的操作，从而允许实施广泛的神经网络架构。在该示例中，后计算资源306被布置成将经处理的OFM数据的切片输出到卷积引擎212.1的存储器302。经处理的OFM数据的切片可在存储器302具有足够容量的情况下存储在卷积引擎212.1的存储器302中，可被传输回到计算系统200的存储器206，或者可广播到其他卷积引擎212以用于进一步的层处理。

在一个示例中，计算机系统200用于根据包括多个卷积层的神经网络架构对一组IFM执行推断。神经网络的每个卷积层包括多个滤波器，并且因此实施每个卷积层涉及多个卷积运算。从存储器206检索一组IFM，以及与神经网络的第一卷积层的滤波器对应的权重数据。该组IFM和滤波器两者都被传输到卷积引擎212.1的存储器302。卷积引擎212.1执行该组IFM和滤波器之间的卷积以生成表示OFM的数据，该数据存储在存储器302中。卷积引擎212中的每个卷积引擎以这种方式执行该组IFM和第一层的相应滤波器之间的卷积，从而导致卷积引擎212中的每个卷积引擎存储表示多个OFM的数据。一旦已经应用了第一层的所有滤波器，则在卷积引擎212之间存储整组经处理的OFM。该组OFM成为用于神经网络的第二卷积层的新的一组IFM。卷积引擎212被布置成将所存储的新的一组IFM广播给彼此，使得每个卷积引擎212可访问用于第二层的整组新IFM。然后将与第二层的滤波器对应的权重数据从存储器206传输到卷积引擎212，并且卷积引擎212中的每个卷积引擎执行新的一组IFM和第二层的相应滤波器之间的卷积。对神经网络的后续卷积层重复此过程。当已实施最终卷积层时，所得的经处理的一组OFM被传输到计算系统200的存储器206或NPU 208的板上存储器(包括存储器302)。神经网络的另外的层可沿用卷积层，例如去卷积层、完全连接层或输出层。尽管在该示例中，一次处理神经网络的层中的一个层，但是在其他示例中，可以同时处理多个层的部分，从而产生所谓的融合层处理。

图4示出了使用数据处理系统处理用于神经网络的给定层的输入数据的方法400，该数据处理系统包括用于执行卷积计算的计算资源，该输入数据包括给定的一组输入特征图(IFM)和给定的一组滤波器。方法400包括执行处理用于给定层的输入数据的计算性能改进方法。数据处理系统可以是图2所示的计算机系统200。在该示例中，计算资源是卷积引擎212。

对用于给定层的输入数据的处理涉及通过将一组IFM与一组滤波器卷积来计算一组OFM，如上所述。IFM是包括表示图像的属性值的元素的数据阵列。该阻滤波器中的滤波器的数量与所产生的OFM的数量有关。在标准卷积中，滤波器的数量等于所产生的OFM的数量。这在方法400中进行了修改以考虑不在标准卷积中利用的计算资源。例如，因为每个计算资源被配置为通过将一组IFM与来自一组滤波器的一个滤波器卷积来计算一个OFM，所以当滤波器的数量小于可用于处理的计算资源的数量时，可能导致计算资源的未充分利用。例如，一组滤波器中可能存在8个滤波器，并且数据处理系统中可能存在16个计算资源。使用标准卷积计算卷积层将导致16个计算资源中的8个计算资源用于处理卷积层，从而使得可用计算资源的利用率为50％。

在框402处，方法400涉及生成一组部分IFM，该组部分IFM包括与给定的一组IFM中的第一IFM对应的第一多个部分IFM和与给定的一组IFM中的第二IFM对应的第二多个部分IFM。如上所述，数据处理系统包括计算资源。计算资源可包括多个卷积引擎，诸如在图2所示的计算机系统200中。卷积引擎中的每个卷积引擎被配置为通过将一组IFM与来自一组滤波器的滤波器卷积来计算一个OFM。

生成第一多个部分IFM和第二多个部分IFM可由数据处理系统来动态地完成。为此，数据处理系统可被配置为确定一组OFM中的OFM的数量和可用于处理的计算引擎的数量。在这种情况下，数据处理系统可确定该组OFM中的OFM的数量小于可用计算引擎的数量。然后，数据处理系统可基于所确定的可用于处理的计算引擎的数量来生成第一组部分IFM。例如，数据处理系统可包括16个计算资源，并且卷积神经网络的层可具有八个OFM。在这种情况下，数据处理系统可生成与第一IFM对应的两个部分IFM，使得每个滤波器卷积部分IFM中的每个IFM来产生16个对应的部分OFM。以这种方式，可利用所有可用计算资源来处理神经网络的层。

在另一个示例中，数据处理系统可包括32个计算资源，而卷积神经网络的层可包括14个滤波器和14个IFM，从而生成14个OFM。在这种情况下，可通过生成28个部分IFM来提高数据处理系统的计算资源处理卷积神经网络的效率。虽然不是数据处理系统的所有计算资源都将被利用，但是通过从IFM生成部分IFM，可将数据处理系统的效率从最大可能效率14/32提高到28/32。

通常，当存在比可用于处理的计算资源更少的滤波器时，可能可以生成多个部分IFM，以便将该多个部分IFM与该组滤波器卷积使得计算资源的利用率更高。第一组部分IFM中的部分IFM的数量不需要是2的幂。例如，第一组部分IFM中可能存在三个、五个、七个等部分IFM。所生成的部分IFM的数量可取决于该组滤波器中的滤波器的数量和可用于处理的计算资源的数量。

如何生成第一多个部分IFM和第二多个部分IFM中的部分IFM可取决于卷积层的某些属性。例如，如果每个内核具有尺寸NxM，其中N和M两者都是大于1的正整数，则第一多个部分IFM中的第一部分IFM可包括也在第一多个部分IFM中的第二部分IFM中的一个或多个元素。也就是说，部分IFM之间可能存在一些重叠，以确保基于如果第一IFM与滤波器卷积，随后的卷积产生预期的部分OFM。这是由于当内核的尺寸为N×M时卷积的性质而导致的，因为表示OFM的数据阵列中的元素是对表示IFM的数据阵列中的多个元素进行的MAC运算的结果。表示IFM的数据阵列中的单个元素可参与表示OFM的数据阵列中的多于一个元素的计算。因此，这些元素可存在于给定的多个部分IFM中的多于一个部分IFM中。

然而，如果该组滤波器中的滤波器中的每个内核的尺寸为1×1，则多个部分IFM中的每个部分IFM的元素可彼此独立，即，表示部分IFM的每个数据阵列可以是表示对应IFM的阵列的不相交子阵列。在任何情况下，表示部分IFM的每个数据阵列可被认为是表示对应IFM的数据阵列的子阵列。另外，所生成的部分IFM的组成和/或尺寸还可取决于卷积神经网络模型所使用的步长和填充中的至少一者。

表示第一多个部分IFM中的第一部分IFM的数据阵列可与表示第一多个部分IFM中的第二部分IFM的数据阵列具有相同的尺寸。在一个示例中，表示第一多个部分IFM中的每个部分IFM的每个数据阵列可具有相同的尺寸。例如，第一多个部分IFM可包括与第一IFM对应的四个部分IFM，其中部分IFM中的每个部分IFM具有相同的尺寸并且大致对应于表示第一IFM的数据的四分之一。

在另一个示例中，表示第一多个部分IFM中的部分IFM的数据阵列的尺寸可与表示第一多个IFM中的第二部分IFM的数据阵列具有不同的尺寸。例如，考虑以下这种情况：第一IFM由尺寸为10×10的二维数据阵列表示，该组滤波器包括四个滤波器，并且数据处理系统包括12个可用计算资源。在这种情况下，如果生成与第一IFM对应的三个部分IFM，则可增加计算资源的利用率。在这种情况下，这三个部分IFM可被生成为具有尺寸6×6、6×6和6×10，因为将表示第一IFM的数据阵列划分为具有相等尺寸的三个部分IFM可能难以实现。

第二多个部分IFM中的每个部分IFM与第一多个部分IFM中的对应部分IFM具有相同的尺寸，使得第二多个部分IFM中的多个部分IFM等于第一多个部分IFM中的部分IFM的数量。例如，如果第一多个部分IFM中存在与第一IFM的左上3×3元素对应的部分IFM，那么第二多个部分IFM中将存在与第二IFM的左上3×3元素对应的对应部分IFM。可对所有IFM重复这种为输入层中的相应IFM生成部分IFM的过程。

可通过操纵第一IFM的存储器地址来生成第一多个部分IFM和第二多个部分IFM。在这种情况下，这可能导致第一IFM被数据处理系统识别为第一多个部分IFM。因此，将对所识别的第一多个部分IFM进行随后的卷积运算。其他示例是可能的。在一个示例中，控制单元210可基于该组OFM中的OFM的数量和可用于处理的计算资源的数量来生成多组部分IFM。OFM的数量和计算资源的数量可由控制单元210来确定。在任何情况下，生成第一组部分IFM都不会将附加数据引入神经网络模型中，因此不会增加存储器使用。

在框404处，方法400涉及将该组部分IFM中的部分IFM分组成一组部分IFM选择。该分组包括至少选择来自第一多个部分IFM的第一部分IFM和来自第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择，并且至少选择来自第一多个部分IFM的第三部分IFM和来自第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择。

该分组可基于部分IFM中的哪个部分IFM被卷积以产生给定部分OFM。例如，标准卷积可通过将一组IFM与给定滤波器卷积来产生给定OFM。OFM的左上四分之一可以是将该组IFM中的每个IFM的相应左上四分之一与给定滤波器卷积的结果。因此，可对与该组IFM中的每个IFM的左上四分之一对应的部分IFM进行分组，使得卷积该组部分IFM产生对应OFM的左上四分之一。

该分组可涉及识别第一多个部分IFM和第二多个部分IFM中的对应部分IFM。例如，可将与第一IFM的包括第一3×3元素的子阵列对应的第一部分IFM和与第二IFM的包括第一3×3元素的子阵列的第二部分IFM分组在一起。

可通过操纵第一部分IFM和第二部分IFM的存储器地址来实现分组。例如，可操纵存储器地址，使得第一部分IFM和第二部分IFM被识别为IFM层的子层。另选地，控制单元210可被配置为对第一部分IFM和第二部分IFM进行分组，使得它们被相应计算资源接收在一起，以用于与相应滤波器卷积。

选择第三部分IFM和第四部分IFM以形成第二部分IFM选择可以与形成第一部分IFM选择的方式一致的方式来完成。可重复对来自第一组部分IFM和第二组部分IFM的部分IFM进行分组的过程，直到第一组部分IFM和第二组部分IFM中的所有对应部分IFM被分组成部分IFM选择。

在框406处，方法400涉及通过数据处理系统的相应计算资源将该组选择与给定的一组滤波器卷积来计算一组部分输出特征图(部分OFM)。例如，将第一部分IFM选择与该组滤波器中的每个滤波器卷积产生第一组部分OFM，其中第一组部分OFM中的每个部分OFM是将第一部分IFM选择与相应滤波器卷积的结果。确定在框404处将部分IFM分组成第一部分IFM选择，使得表示每个部分OFM的每个所得数据阵列对应于表示对应OFM的数据阵列的不相交子集。以这种方式，当将每个部分IFM选择与该组滤波器卷积时，所得部分OFM在功能上等同于卷积IFM而产生的OFM。

该操作的结果是，可利用更多的数据处理系统的计算资源来计算神经网络的层。例如，如果对IFM进行卷积，而不是部分IFM，那么所产生的OFM的数量将等于该组滤波器中的滤波器的数量，因为将该组IFM与单个滤波器卷积的结果是单个OFM。然而，根据方法400，通过卷积过程产生的部分OFM的数量等于每个IFM的部分IFM的数量乘以该组滤波器中的滤波器的数量。这可在数学上表述为：

N_O＝N_f*N_PI 公式1

其中N_O是部分OFM的数量，N_f是该组滤波器中的滤波器的数量，并且N_PI是单个卷积层中每个IFM的部分IFM的数量。

因此，选择每个IFM的部分IFM的适当数量确定所产生的部分OFM的数量，并且因此确定在卷积神经网络中的卷积层的计算中利用多少计算资源。可利用公式1以便针对可用计算资源的数量找到最大可能的N_O，并且因此找到应针对每个IFM生成多少个部分IFM。这可以由数据处理系统本身完成，或者使用包括数据处理系统的设备上的软件来计算。例如，数据处理系统可确定：如果将给定的一组IFM与给定的一组滤波器卷积，则将计算出包括给定数量的OFM的一组OFM。如果OFM的给定数量小于或等于卷积引擎的给定数量的一半，则数据处理系统确定：该组部分OFM可包括数量大于OFM的给定数量并且小于或等于卷积引擎的给定数量的部分OFM。

在框408处，方法400涉及组合该组部分OFM来形成给定的一组OFM，并且使用该给定的一组OFM作为用于神经网络的后续层的输入数据。如上文相对于框406所讨论的，表示每个部分OFM的数据阵列是表示对应OFM的数据阵列的不相交子集。在一些情况下，例如，卷积层的输出可以是用于后续卷积层或池化层的输入。在这种情况下，可能期望在框406处产生的输出看起来好像卷积层没有通过首先生成部分IFM来处理。这种情况的示例是卷积网络的后续层期望来自先前层的一定数量的OFM作为到后续层的输入的情况。这在已经过训练的卷积神经网络中可能是有用的，在卷积神经网络中，后续层中的更复杂的过程(诸如通道重排或进一步卷积)期望一定尺寸的输入数据阵列。

形成该组OFM的过程可对应于生成多个部分IFM。例如，可操纵部分OFM的存储器地址，使得卷积神经网络的后续层将对应OFM识别为部分OFM。另选地，控制单元210可被配置为形成该组OFM。

在一些情况下，可能不需要从部分OFM形成一组OFM。根据后续层中的一组滤波器中的滤波器的数量，可重复方法400，诸如如果后续层中的滤波器的数量小于可用于处理的计算资源的数量。这可动态地确定，因为数据在卷积神经网络的层之间传递，或者可在第一卷积层上开始处理之前确定。

在一些示例中，可选择性地执行计算性能改进方法400。在这种情况下，可以执行与计算性能改进方法400不同的另外的方法，以使用数据处理系统处理用于另外的神经网络层的另外的数据，这分别取决于给定的网络层和另外的网络层的特性。例如，方法400可不应用于卷积神经网络的每个层，但是可基于另外的网络层的特性而选择性地实施。例如，这些特性可包括由另外的网络层产生的OFM的数量。

在一个示例中，另外的层包括另外一组IFM和另外一组滤波器。数据处理系统可确定：如果将另外一组IFM与另外一组滤波器卷积，则将计算出包括另外数量的OFM的另外一组OFM。如果OFM的另外数量大于卷积引擎的给定数量的一半，则可将另外一组IFM与第一组滤波器卷积来计算另外一组OFM。可在卷积引擎中的不同卷积引擎中计算另外一组OFM中的每个OFM。

方法400提供了通过增加可用计算资源的利用率来处理神经网络的层的有效方法。另外，由于部分IFM是相应IFM的子阵列，并且将部分IFM与同一组滤波器卷积，因此方法400不会增加神经网络的标准卷积层上方的存储器使用。应当注意，参考第一IFM和第二IFM描述了方法400。然而，方法400适用于包括大于一个的任何数量的IFM的层。

现在将参考图5A至图5C讨论方法400的示例。图5A是卷积神经网络500的示例性卷积层，该卷积神经网络具有一组IFM 502和504、一组滤波器506-512和一组OFM 514-520。每个滤波器506-512包括用于卷积每个IFM 502和504的两个内核。图5A示出了将一组IFM 502和504与一组滤波器506-512卷积以产生一组OFM 514-520的结果。在这种情况下，OFM 514通过将IFM 502和504与滤波器506卷积来产生，OFM 516通过将IFM 502和504与滤波器508卷积来产生，OFM 518通过将IFM 502和504与滤波器510卷积来产生，并且OFM 520通过将IFM 502和504与滤波器512卷积来产生。

在图5A至图5C所示的示例中，数据处理系统(未示出)包括含有至少八个卷积引擎的计算资源。因此，在图5A所示的示例中，八个计算引擎中仅四个计算引擎将用于处理卷积层500。如果可利用更多的计算引擎来处理卷积层，则可使处理卷积层更有效。

图5B示出了生成522与IFM 502和504对应的一组部分IFM 502’、502”、504’、504”的示例。如上所述，数据处理系统包括至少八个卷积引擎。因此，在图5B所示的示例中，两个IFM 502和504被划分为四个部分IFM 502’、502”、504’、504”，使得将通过将每个部分IFM与一组滤波器卷积来产生八个部分OFM，并且因此，在卷积过程中利用所有八个计算引擎。每个部分IFM 502’、502”、504’、504”的尺寸取决于滤波器506-512中的内核的尺寸。例如，如果滤波器506-512中的内核的尺寸为1×1，则部分IFM 502’、502”、504’、504”可表示相应IFM 502和504的不相交子阵列。在一个示例中，部分IFM 502’可表示IFM 502中的元素的上半部分，部分IFM 502”可表示IFM 502中的元素的下半部分，部分IFM 504’可表示IFM 504中元素的上半部分，并且部分IFM 504”可表示IFM 504中元素的下半部分。其他划分是可能的。例如，部分IFM 502’、502”、504’和504”可对应于相应IFM 502和504的竖直二等分。在另一个示例中，部分IFM 502’和504’与部分IFM 502”和504”具有不同的尺寸。

如果滤波器506-512中的内核的尺寸为NxM，其中N和M是大于1的正整数，则来自部分IFM 502’的至少一个元素将与来自部分IFM 502”的元素相同，以便产生正确的部分OFM。在IFM 502由尺寸为16×16的数据阵列表示的情况下，部分IFM 502’可对应于IFM 502的上部9×16元素，而部分IFM 502”可对应于IFM 502的下部9×16元素。在这种情况下，部分IFM502’的底部行将与部分IFM 502”的顶部行相同。如上所述，其他划分是可能的。

对于要卷积以产生预期的部分OFM的部分IFM 502’、502”、504’、504”，部分IFM502’、502”、504’、504”需要在卷积之前被适当地分组。图5C是卷积神经网络524的示例性卷积层，其中部分IFM 502’、502”、504’、504”被分组以形成部分IFM选择526和528。部分IFM选择526包括分别与第一IFM 502和第二IFM 504对应的部分IFM 502’、504’，而部分IFM选择528包括分别与第一IFM 502和第二IFM 504对应的部分IFM 502”、504”。然后，数据处理系统可将第一部分IFM选择526和第二部分IFM选择528作为单独的数据输入层来处理。

然后分别通过滤波器506-512卷积部分IFM选择526、528以产生两个部分OFM选择530和532，这两个选择分别包括部分OFM 514’、516’、518’、520’和514”、516”、518”、520”。部分OFM514’、514”对应于OFM 514，部分OFM 516’、516”对应于OFM 516，部分OFM 518’、518”对应于OFM 518，并且部分OFM 520’、520”对应于OFM 520。具体地，通过将部分IFM选择526与相应的滤波器506-512卷积来产生部分OFM 514’、516’、518’、520’，并且通过将部分IFM选择528与相应的滤波器506-512卷积来产生部分OFM 514”、516”、518”、520”。以这种方式，可以理解的是，OFM选择530、532在功能上等同于图5A中的OFM 514-520。

应当注意，方法400可由具有图2所示的计算设备200的多个计算资源212和存储装置206的数据处理系统来执行。例如，存储装置206根据神经网络的层存储数据，该数据包括一组输入特征图IFM和一组滤波器，并且其中该存储元件耦接到数据处理系统。该数据处理系统被配置为生成一组部分IFM，该组部分IFM包括与给定的一组IFM中的第一IFM对应的第一多个部分IFM和与给定的一组IFM中的第二IFM对应的第二多个部分IFM。该数据处理系统被进一步配置为将该组部分IFM中的部分IFM分组成一组部分IFM选择，包括：至少选择来自第一多个部分IFM的第一部分IFM和来自第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择，并且至少选择来自第一多个部分IFM的第三部分IFM和来自第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择。该数据处理系统被进一步配置为通过相应计算资源将该组选择与给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。

如上所述，数据处理系统可以是被配置为处理表示卷积神经网络的层的数据的神经数据处理系统。计算资源可包括多个卷积引擎。该数据处理系统可被进一步被配置为：相较于在将给定的一组IFM与给定的一组滤波器卷积的情况下将使用的卷积引擎的数量而言，增加所述多个卷积引擎中的卷积引擎的数量，这些卷积引擎用于处理用于给定层的输入数据。除此之外或另选地，该数据处理系统可被配置为修改与第一IFM相关联的存储器地址以生成第一多个部分IFM。如果是这种情况，则数据处理系统还可被配置为修改与来自第一多个部分IFM的第一部分IFM相关联的存储器地址和来自第二多个部分IFM的第二部分IFM以形成第一部分IFM选择。该数据处理系统可被进一步被配置为组合该组部分OFM以形成给定的一组OFM，并且使用该给定的一组OFM作为用于神经网络的后续层的输入数据。

图6示出了包括计算机可执行指令604-610的非暂态计算机可读存储介质600。计算机可执行指令604-610当由处理器602执行时使处理器602执行方法400。在第一框604处，方法400包括生成一组部分IFM，该组部分IFM包括与给定的一组IFM中的第一IFM对应的第一多个部分IFM和与给定的一组IFM中的第二IFM对应的第二多个部分IFM。在第二框606处，该方法涉及至少选择来自第一多个部分IFM的第一部分IFM和来自第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择，并且至少选择来自第一多个部分IFM的第三部分IFM和来自第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择。在框608处，该方法涉及通过数据处理系统的相应计算资源将该组选择与给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。在框610处，该方法涉及组合该组部分OFM来形成给定的一组OFM，并且使用该给定的一组OFM作为用于神经网络的后续层的输入数据。

应当理解，相对于任何一个实施方案所述的任何特征结构可单独使用，或与所述的其他特征结构组合使用，并且还可与任何其他实施方案的一个或多个特征结构组合使用，或与任何其他实施方案的任何特征结构组合使用。此外，在不脱离所附权利要求中限定的本发明的范围的情况下，也可采用上文未描述的等同物和修改形式。

Claims

1.一种使用数据处理系统处理用于神经网络的给定层的输入数据的方法，所述数据处理系统包括用于执行卷积计算的计算资源，所述输入数据包括给定的一组输入特征图IFM和给定的一组滤波器，所述方法包括执行处理用于所述给定层的所述输入数据的计算性能改进方法，包括：

生成一组部分IFM，所述一组部分IFM包括与所述给定的一组IFM中的第一IFM对应的第一多个部分IFM和与所述给定的一组IFM中的第二IFM对应的第二多个部分IFM；

将所述一组部分IFM中的部分IFM分组成一组部分IFM选择，包括：

至少选择来自所述第一多个部分IFM的第一部分IFM和来自所述第二多个部分IFM的第二部分IFM，以形成第一部分IFM选择；以及

至少选择来自所述第一多个部分IFM的第三部分IFM和来自所述第二多个部分IFM的第四部分IFM，以形成第二部分IFM选择；以及

通过所述数据处理系统的相应计算资源将所述一组选择与所述给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。

2.根据权利要求1所述的方法，所述方法包括：

组合所述一组部分OFM以形成给定的一组OFM；以及

使用所述给定的一组OFM作为用于所述神经网络的后续层的输入数据。

3.根据权利要求1所述的方法，其中所述计算资源包括多个卷积引擎，并且其中所述方法：相较于在将所述给定的一组IFM与所述给定的一组滤波器卷积的情况下将使用的卷积引擎的数量而言，增加所述多个卷积引擎中的卷积引擎的数量，所述卷积引擎用于处理用于所述给定层的所述输入数据。

4.根据权利要求3所述的方法，其中：

如果将所述给定的一组IFM与所述给定的一组滤波器卷积，则将计算出包括给定数量的OFM的一组OFM；

OFM的所述给定数量小于或等于卷积引擎的所述给定数量的一半；

所述一组部分OFM包括数量大于OFM的所述给定数量并且小于或等于卷积引擎的所述给定数量的部分OFM，并且

其中所述计算性能改进方法包括在所述卷积引擎中的不同卷积引擎中计算所述一组部分OFM中的每个部分OFM。

5.根据权利要求4所述的方法，包括选择性地执行所述计算性能改进方法，以及执行与所述计算性能改进方法不同的另外的方法，以使用所述数据处理系统处理用于另外的神经网络层的另外的数据，这分别取决于所述给定的网络层和所述另外的网络层的所述特性。

6.根据权利要求5所述的方法，其中：

所述另外的层包括另外一组IFM和另外一组滤波器；

如果将所述另外一组IFM与所述另外一组滤波器卷积，则将计算出包括另外数量的OFM的另外一组OFM；并且

OFM的所述另外数量大于卷积引擎的所述给定数量的一半，并且

其中所述另外的方法包括：

将所述另一组IFM与所述第一组滤波器卷积来计算所述另一组OFM；以及

在所述卷积引擎中的不同卷积引擎中计算所述另外一组OFM中的每个OFM。

7.根据权利要求1所述的方法，其中所述生成所述一组部分IFM包括修改所述第一IFM和所述第二IFM的存储器地址。

8.根据权利要求1所述的方法，其中所述第一部分IFM中的数据的至少一个元素也在所述第三部分IFM中。

9.一种数据处理系统，所述数据处理系统包括：

计算资源；和

存储装置，所述存储装置用于根据神经网络的层存储数据，所述数据包括一组输入特征图IFM和一组滤波器，其中所述存储装置耦接到所述计算资源，

其中所述数据处理系统被配置为：

通过相应计算资源将所述一组选择与所述给定的一组滤波器卷积来计算一组部分输出特征图—部分OFM。

10.一种计算机可读介质，所述计算机可读介质包括指令集，所述指令集当由处理器执行时使所述处理器执行根据权利要求1至8中任一项所述的方法。