CN107832839B

CN107832839B - 执行卷积神经网络中的运算的方法和装置

Info

Publication number: CN107832839B
Application number: CN201711041806.5A
Authority: CN
Inventors: 凌坤; 黄畅; 陈亮; 李德林; 李建军; 周峰
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2020-02-14
Anticipated expiration: 2037-10-31
Also published as: US20190130265A1; JP2019082996A; EP3477556A1; KR20190049593A; JP6726246B2; CN107832839A

Abstract

本申请涉及用于执行卷积神经网络中的运算的方法和装置，该方法包括：拆分卷积神经网络中的选定层的权重参数以获得包含多个运算参数的运算参数阵列；分别使用所获得的运算参数阵列中的每个运算参数执行选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列；以及基于所获得的部分运算结果阵列，生成选定层的一个或多个输出数据。通过该方法能够提高卷积神经网络中的运算的执行效率。

Description

执行卷积神经网络中的运算的方法和装置

技术领域

本申请总体上涉及人工卷积神经网络的技术领域，并且具体地涉及执行卷积神经网络中的运算的方法和装置。

背景技术

基于卷积神经网络的深度学习技术已经被广泛地应用于图像识别、视频分析、自然语言处理、辅助驾驶等不同的领域。

卷积神经网络可以包含多个层。在每个层中，使用该层的权重参数对该层的输入数据(也被称为输入特征数据)执行该层的卷积运算，以获得相应的输出数据(也被称为激活值或输出特征数据)。

在卷积神经网络中，每个特征数据可以具有一定的宽度和高度，并且可以具有一个或多个通道，每个通道可以携带该特征数据的一类信息。相应地，每个层的权重参数可以包含一个或多个核(也可以称为卷积核)，所有的核可以具有相同的宽度、相同的高度和相同的深度(也被称为通道的数量)。换句话说，每个层的权重参数可以具有例如宽度、高度、深度和核的数量等维度。

期望能够使用诸如通用的中央处理器(CPU)、图形处理器(GPU)或专用加速器等硬件高效地执行卷积神经网络中的运算。然而，随着卷积神经网络的前向推理过程的进行，每层的权重参数的大小可能越来越大，例如，可能具有更多数量的通道和/或更多数量的核。在某一层的权重参数很大而无法被完全地缓存在与用于执行神经网络中的运算的处理器相关联的高速存储器(例如，处理器内或与处理器相关联的高速缓冲存储器)中，导致无法正确地和/或高效地执行该层的运算。

发明内容

本申请涉及一种执行卷积神经网络中的运算的方法，其包括：在深度和核的数量之中的至少一个维度上拆分卷积神经网络中的选定层的权重参数以获得包含多个运算参数的运算参数阵列，运算参数阵列的每行的所有运算参数来自权重参数的核的集合的同一子集并且没有相同的通道，并且每列的每个运算参数分别来自权重参数的核的集合的不同子集并且具有相同的一个或多个通道；分别使用运算参数阵列中的每个运算参数，对选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列；以及基于部分运算结果阵列，生成选定层的一个或多个输出数据。

另外，本申请还涉及一种执行卷积神经网络中的运算的装置，其包括被配置为至少执行上述方法的一个或多个处理器。

另外，本申请还涉及一种执行卷积神经网络中的运算的装置，其包括：拆分器，被配置为在深度和核的数量之中的至少一个维度上拆分卷积神经网络中的选定层的权重参数以获得包含多个运算参数的运算参数阵列，运算参数阵列的每行的所有运算参数来自权重参数的核的集合的同一子集并且没有相同的通道，并且每列的每个运算参数分别来自权重参数的核的集合的不同子集并且具有相同的一个或多个通道；运算器，被配置为分别使用运算参数阵列中的每个运算参数，对选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列；以及生成器，被配置为基于部分运算结果阵列，生成选定层的一个或多个输出数据。

另外，本申请还涉及一种非临时性存储介质，在其上存储有程序指令，所述程序指令在被计算装置执行时执行上述方法。

通过根据本申请的实施例的方法，可以提高硬件的运算效率或者提高硬件的利用率，并且还可以回避硬件对于参数的大小的限制。

附图说明

图1示出根据本申请的实施例的示例方法的流程图。

图2示出根据本申请的实施例的权重参数和相应的阵列表示的示例。

图3示出根据本申请的实施例的拆分权重参数的方式的示例。

图4示出根据本申请的实施例的根据输入数据拆分权重参数的示例。

图5示出根据本申请的实施例的使用拆分出的运算参数执行运算的示例。

图6示出根据本申请的实施例的生成输出数据的示例。

图7示出根据本申请的实施例的生成输出数据的示例。

图8示出根据本申请的实施例的生成输出数据的示例。

图9示出根据本申请的实施例的生成输出数据的示例。

图10示出根据本申请的实施例的生成输出数据的示例。

图11示出根据本申请的实施例的可用于实现根据本申请的实施例的方法的装置的框图。

图12示出根据本申请的实施例的可用于实现根据本申请的实施例的方法的装置的框图。

具体实施方式

图1示出根据本申请的实施例的示例方法100的流程图。如图1所示，针对卷积神经网络中的选定层，在步骤S101中，在深度和核的数量之中的至少一个维度上拆分卷积神经网络中的选定层的权重参数，以获得包含多个运算参数的运算参数阵列。然后，在步骤S105中，分别使用通过步骤S101所获得的运算参数阵列中的每个运算参数，对选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列。然后，在步骤S110中，基于通过步骤S105所获得的部分运算结果阵列，生成选定层的一个或多个输出数据。

在一个实施例中，可以在卷积神经网络的设计时预先确定或知道卷积神经网络中的每个层所要执行的运算以及每个层中所要使用的权重参数的大小和在各个维度上的量值，并且可以预先确定或知道在执行卷积神经网络的过程中用于对各个层中的权重参数进行的高速缓存的高速存储器的容量或者在高速存储器中为每一层的权重参数或同时为多个层的权重参数预留的容量，或者在知道用于支持卷积神经网络的乘加运算的硬件电路中的乘法器和加法器的布置方式的情况下，可以预先确定或知道需要同时处理多少组的核的运算或者多少组的通道的运算以便能够获得较好的或所期望的硬件利用率或执行效率。

由此，可以根据诸如高速存储器的容量、高速存储器中预留给权重参数的容量、乘法器和加法器的布置方式、运算的并行度要求、卷积神经网络的设计、执行卷积神经网络的运算的进程或线程的上限或下限、针对某种或某些应用场景的经验数据等一个或多个方面，预先确定出需要对卷积神经网络中的哪些层的权重参数进行拆分，或者说，可以预先确定出需要选择卷积神经网络中的哪些层作为步骤S101中的选定层。

在另外的实施例中，也可以在卷积神经网络的运算过程中，例如在实际地执行某一层的运算之前，根据诸如高速存储器的容量、高速存储器中预留给权重参数的容量、高速存储器中当前可用于该层的权重参数的容量、乘法器和加法器的布置方式、运算的并行度要求、卷积神经网络的设计、处理器和/或操作系统的当前的性能等一个或多个方面，确定需要对该层的权重参数进行拆分。如果需要，则可以将该层作为步骤S101中的选定层。

在另外的实施例中，也可以在卷积神经网络的运算过程中，例如在实际地执行某个中间层的运算之前，根据诸如高速存储器的容量、高速存储器中预留给权重参数的容量、高速存储器中当前可用于该层的权重参数的容量、乘法器和加法器的布置方式、运算的并行度要求、卷积神经网络的设计、处理器和/或操作系统的当前的性能等一个或多个方面，确定在从该中间层开始的连续的多个层中，需要对哪个(些)层的权重参数进行拆分，并将哪个(些)层作为选定层。

在另外的实施例中，在卷积神经网络中，通常可能是靠后的一层或多层具有较大的权重参数，因此可以在卷积神经网络的设计过程中，将在卷积神经网络中靠后的一层或多层作为步骤S101中的选定层。

在另外的实施例中，如果卷积神经网络的某一层接收到多个部分输入数据，所接收到的多个部分输入数据的集合对应于一个完整的输入数据，并且任何两个部分输入数据均不具有相同的通道，换句话说，如果将一个输入特征数据在深度的方向上拆分成多个部分输入数据，并将多个部分输入数据分别提供给该层，则可以将该层作为步骤S101中的选定层。

在另外的实施例中，也可以不进行上述的任何预先的或实时的判断，而是对卷积神经网络中的每个层的权重参数都进行拆分。换句话说，卷积神经网络中的每个层都可以作为步骤S101中的选定层。

另外，可以在步骤S101中判断卷积神经网络中的某个(些)层是否可以作为选定层。

为了使拆分前后的运算结果保持一致，可以选择在深度(即，通道方向)和核的数量之中的至少一个维度上对选定层的权重参数进行拆分。如果将一个权重参数视为在深度和核的数量这两个维度上的阵列，其中，每行对应于每个核的不同的通道，每列对应于各个核在相同的通道上的部分，则在深度和核的数量之中的至少一个维度上对选定层的权重参数进行拆分可以被视为在行的方向和/或列的方向上将该阵列划分成若干部分。

在图2中的箭头的左侧示出具有三个核K1至K3的权重参数，每个核(K1或K2或K3)具有三个通道C1至C3，其中，核K1的三个通道分别表示为K1_C1、K1_C2和K1_C3，核K2的三个通道分别表示为K2_C1、K2_C2和K2_C3，核K3的三个通道分别表示为K3_C1、K3_C2和K3_C3。

在图2中的箭头的右侧示出在深度和核的数量这两个维度上的阵列表示，其中，该阵列具有三行和三列，核K1的三个通道K1_C1、K1_C2和K1_C3对应于阵列的第一行，核K2的三个通道K2_C1、K2_C2和K2_C3对应于阵列的第二行，核K3的三个通道K3_C1、K3_C2和K3_C3对应于阵列的第三行，并且K1至K3中与通道C1相对应的部分K1_C1、K2_C1和K2_C1对应于阵列的第一列，K1至K3中与通道C2相对应的部分K1_C2、K2_C2和K2_C2对应于阵列的第二列，并且K1至K3中与通道C3相对应的部分K1_C3、K2_C3和K2_C3对应于阵列的第三列。

应当理解，卷积神经网络中的权重参数不局限于图2所示的示例，而是可以具有任意数量的核以及任意的通道数量。

这样，如前文所述，在深度和核的数量之中的至少一个维度上对选定层的权重参数进行拆分可以被视为在行的方向和/或列的方向上对相应的阵列进行拆分。

图3示出根据本申请的实施例的拆分权重参数的方式的示例。

在一个示例中，可以如图3中的(a)所示那样地将图2中的阵列按照列划分成3个部分(这相当于在深度的维度上将权利参数拆分成3个部分)，从而形成具有1行和3列的运算参数阵列，其中包括3个运算参数，分别对应在于核K1至K3中的对应于通道C1的部分、核K1至K3中的对应于通道C2的部分以及核K1至K3中的对应于通道C3的部分。

在另外的示例中，可以如图3中的(b)所示那样地将图2中的阵列按照行划分成3个部分(这相当于在核的数量的维度上将权利参数拆分成3个部分)，从而形成具有3行和1列的运算参数阵列，其中包括3个运算参数，分别对应于核K1至K3。

在另外的示例中，可以如图3中的(c)所示那样地将图2中的阵列划分成3行3列(这相当于同时在核的数量和深度两个维度上将权利参数拆分成9个部分)，从而形成具有3行和3列的运算参数阵列，其中包括9个运算参数，分别对应于一个核的一个通道。

在另外的示例中，可以如图3中的(d)所示那样地划分图2中的阵列以形成具有1行和2列的运算参数阵列(这相当于在深度的维度上将权利参数拆分成2个部分)，其中包括2个运算参数，第1列的运算参数(图3中表示为C1)对应于核K1至K3在通道C1上的部分，第2列的运算参数对应于核K1至K3在通道C1和C2上的部分(图3中表示为K1_(C2-C3)、K2_(C2-C3)和K3_(C2-C3))。

在另外的示例中，可以如图3中的(e)所示那样地划分图2中的阵列以形成具有2行和3列的运算参数阵列(这相当于同时在深度和核的数量这两个维度上将权利参数拆分成6个部分)，其中包括6个运算参数，第1行的运算参数分别对应于核K1和K2在通道C1、C2和C3上的部分，第1行的运算参数分别对应于核K3在通道C1、C2和C3上的部分。

在另外的示例中，可以如图3中的(f)所示那样地划分图2中的阵列从而形成具有2行和2列的运算参数阵列(这相当于同时在深度和核的数量这两个维度上将权利参数拆分成6个部分)，其中包括4个运算参数，第1行第1列的运算参数对应于核K1在通道C1和C2上的部分(图3中表示为K1_(C1-C2))，第1行第2列的运算参数对应于核K1在通道C3上的部分，第2行第1列的运算参数对应于核K2和K3在通道C1和C2上的部分(图3中表示为K2_(C1-C2)和K3_(C1-C2))，第2行第2列的运算参数对应于核K2和K3在通道C3上的部分。

应当理解，在深度和核的数量之中的至少一个维度上拆分权重参数的方式不限于图3所示的示例。可以采用任何适当的方式在深度和核的数量之中的至少一个维度上拆分权重参数来获得包含多个运算参数的运算参数阵列，并且可以使运算参数阵列的每行的所有运算参数均来自权重参数的核的集合的同一子集并且没有相同的通道，并且运算参数阵列的每列的每个运算参数分别来自权重参数的核的集合的不同子集并且具有相同的一个或多个通道。

如前文所述，在步骤S101中，可以根据很多不同的条件来确定是否对选定层的参数进行拆分，相应地，也可以根据这些条件来判断拆分之后所获得的运算参数阵列是否符合要求。

在一个实施例中，在步骤S101中，可以在权重参数的大小超出第一阈值的情况下拆分权重参数，并且可以使所获得的运算参数阵列中的每个运算参数的大小均小于或等于第一阈值。

在一个示例中，可以根据用于对权重参数进行高速缓存的高速存储器的容量或者高速存储器的可用于存储权重参数的容量来设置第一阈值。

在另外的示例中，也可以将第一阈值设置为高速存储器的容量的1/5、1/2、2/3，或者可以将第一阈值设置为等于高速存储器的容量。

在另外的示例中，还可以由卷积神经网络的设计人员在卷积神经网络的设计过程中根据经验或统计数据并结合对卷积神经网络的应用场景等方面的考虑来设置第一阈值，例如可以设置为32kb、64kb、128kb等。

应当理解，第一阈值的设置方式不限于上述示例。可以根据需要，将第一阈值设置为任何适当的值或期望的值。另外，可以针对整个卷积神经网络设置一个第一阈值，并将该第一阈值应用于每个层；也可以针对每个选定层分别设置相应的第一阈值。另外，第一阈值可以是固定的值，也可以在卷积神经网络的前向推理过程中根据系统(包括硬件和/或软件)的情况(例如，性能、可用资源等)和/或学习的情况(例如，卷积神经网络中的每层的参数也可以是在前向推理过程中通过学习而动态调整的)来更新。

在另外的实施例中，在步骤S101中，可以在权重参数的核的数量超出第二阈值的情况下拆分权重参数，并且可以使所获得的运算参数阵列中的每个运算参数的核的数量均小于或等于第二阈值。

在一个示例中，可以由卷积神经网络的设计人员在卷积神经网络的设计过程中根据经验或统计数据并结合对卷积神经网络的应用场景等方面的考虑来设置第二阈值，例如可以设置为8、32、64等。

在另外的示例中，也可以根据高速存储器的容量与每个核的大小来设置第二阈值。例如，可以将第二阈值的值设置为小于或等于高速存储器的可用于存储权重参数的容量除以每个核的大小的结果值。

在另外的示例中，如果基于支持神经网络的计算的硬件相关的参数，确定在设计N个卷积核的情况下，软件和/或硬件方面的成本和性能相对较好，例如，可以省去加法器的选择/使能电路的设计，或者可以取得相对较好的处理上的并行度，则可以将第二阈值设置为N。例如，假设权重参数的核的数量为K并且第二阈值为N，可以使运算参数阵列具有K/N行并且每行中的每个运算参数的核小于或等于N，这样可以有利于在针对每个运算参数使用并行的方式执行运算时提高并行度或者资源的利用率。

应当理解，第二阈值的设置方式不限于上述示例。可以根据需要，将第二阈值设置为任何适当的值或期望的值。另外，可以针对整个卷积神经网络设置一个第二阈值，并将该第二阈值应用于每个层；也可以针对每个选定层分别设置相应的第二阈值。另外，第二阈值可以是固定的值，也可以在卷积神经网络的前向推理过程中根据系统(包括硬件和/或软件)的情况(例如，性能、可用资源等)和/或学习的情况(例如，卷积神经网络中的每层的参数也可以是在前向推理过程中通过学习而动态调整的)来更新。

在另外的实施例中，在步骤S101中，可以在权重参数的核的数量大于或等于第一预定数量的情况下拆分权重参数，并且可以使所获得的运算参数阵列的行数等于第一预定数量的倍数。

在一个示例中，可以根据用于处理卷积神经网络中的运算的处理器(例如，CPU、GPU或专用的加速器等)的数量来设置第一预定数量。

在另外的示例中，可以根据高速存储器的容量(例如，总容量或者预留用于存储权重参数的容量)除以卷积神经网络中的某个权重参数(例如，大小最大的权重参数或者大小最小的权重参数)的核的大小所得到的结果来设置第一预定数量。

在另外的示例中，如果基于支持神经网络的计算的硬件相关的参数，确定在设计例如N个卷积核的情况下，软件和/或硬件方面的成本和性能相对较好，例如，可以省去加法器的选择/使能电路的设计，或者可以取得相对较好的处理上的并行度，则可以将第一预定数量设置为N。这样的设置方式可以有利于在针对每行的运算参数使用并行的方式执行运算时提高并行度或者资源的利用率。

应当理解，第一预定数量的设置方式不限于上述示例。可以根据需要，将第一预定数量设置为任何适当的值或期望的值。另外，可以针对整个卷积神经网络设置一个第一预定数量，并将该第一预定数量应用于每个层；也可以针对每个选定层分别设置相应的第一预定数量。另外，第一预定数量可以是固定的值，也可以在卷积神经网络的前向推理过程中根据系统(包括硬件和/或软件)的情况(例如，性能、可用资源等)和/或学习的情况(例如，卷积神经网络中的每层的参数也可以是在前向推理过程中通过学习而动态调整的)来更新。

在另外的实施例中，在步骤S101中，可以在权重参数的通道的数量超出第三阈值的情况下拆分权重参数，并且可以使所获得的运算参数阵列中的每个运算参数的通道的数量均小于或等于第三阈值。

在一个示例中，可以由卷积神经网络的设计人员在卷积神经网络的设计过程中根据经验或统计数据并结合对卷积神经网络的应用场景等方面的考虑来设置第三阈值，例如可以设置为8、32、64等。

在另外的示例中，可以根据高速存储器的容量(例如，总容量或者预留用于存储权重参数的容量)除以卷积神经网络中的某个权重参数(例如，大小最大的权重参数或者大小最小的权重参数)在单个通道上的大小所得到的结果来设置第三阈值。

在另外的示例中，在支持神经网络的乘加运算的硬件电路中，可以包括一组或多组乘法器和加法器的布置，每组乘法器和加法器的布置中可以包括一个或多个乘法器以及一个或多个加法器。基于每组乘法器和加法器的布置，确定在权重参数的深度值为M时，乘法器和加法器的使用率最高(或相对较高)，并且例如可以省去选择/使能电器的设计/布置，则可以将第三阈值设置为M。例如，假设权重参数的深度为D并且第三阈值为M，则可以使运算参数阵列具有D/M列并且每列中的每个运算参数的深度小于或等于M，这样可以有利于在针对每个运算参数使用并行的方式执行运算时提高并行度或者资源的利用率。

应当理解，第三阈值的设置方式不限于上述示例。可以根据需要，将第三阈值设置为任何适当的值或期望的值。另外，可以针对整个卷积神经网络设置一个第三阈值，并将该第三阈值应用于每个层；也可以针对每个选定层分别设置相应的第三阈值。另外，第三阈值可以是固定的值，也可以在卷积神经网络的前向推理过程中根据系统(包括硬件和/或软件)的情况(例如，性能、可用资源等)和/或学习的情况(例如，卷积神经网络中的每层的参数也可以是在前向推理过程中通过学习而动态调整的)来更新。

在另外的实施例中，在步骤S101中，可以在权重参数的通道的数量大于或等于第二预定数量的情况下拆分权重参数，并且可以使所获得的运算参数阵列的列数等于第二预定数量的倍数。

在一个示例中，可以根据用于处理卷积神经网络中的运算的处理器(例如，CPU、GPU或专用的加速器等)的数量来设置第二预定数量。

在另外的示例中，可以根据高速存储器的容量(例如，总容量或者预留用于存储权重参数的容量)除以卷积神经网络中的某个权重参数(例如，大小最大的权重参数或者大小最小的权重参数)的深度所得到的结果来设置第二预定数量。

在另外的示例中，在支持神经网络的乘加运算的硬件电路中，可以包括一组或多组乘法器和加法器的布置，每组乘法器和加法器的布置中可以包括一个或多个乘法器以及一个或多个加法器。基于每组乘法器和加法器的布置，确定在权重参数的深度值为M时，乘法器和加法器的使用率最高(或相对较高)，并且例如可以省去选择/使能电器的设计/布置，则可以将第二预定数量设置为M。这样的设置方式可以有利于在针对每列的运算参数使用并行的方式执行运算时提高并行度或者资源的利用率。

应当理解，第二预定数量的设置方式不限于上述示例。可以根据需要，将第二预定数量设置为任何适当的值或期望的值。另外，可以针对整个卷积神经网络设置一个第二预定数量，并将该第二预定数量应用于每个层；也可以针对每个选定层分别设置相应的第二预定数量。另外，第二预定数量可以是固定的值，也可以在卷积神经网络的前向推理过程中根据系统(包括硬件和/或软件)的情况(例如，性能、可用资源等)和/或学习的情况(例如，卷积神经网络中的每层的参数也可以是在前向推理过程中通过学习而动态调整的)来更新。

在另外的实施例中，如果卷积神经网络的某一层接收到多个部分输入数据，所接收到的多个部分输入数据的集合对应于一个完整的输入数据，并且任何两个部分输入数据均不具有相同的通道，换句话说，如果一个输入特征数据在深度的方向上被拆分成多个部分输入数据，并将多个部分输入数据分别提供给该层，则在步骤S101中，在该层中，可以根据每个部分输入数据拆分该层的权重参数，使得所获得的运算参数阵列的列数等于所接收到的多个部分输入数据的数量，并且每列的所有运算参数与所接收到的多个部分输入数据中的一个对应于相同的一个或多个通道。

例如，如图4所示，假设在卷积神经网络中的某一层接收到两个输入数据FD1和FD2，并且可以确定FD1和FD2实际上对应于一个完整的特征数据FD的两个部分(如图4中的箭头A1所示)，其中，FD1对应于FD在通道C1和C2上的部分(图4中分别表示为FD_C1和FD_C2)，并且FD2对应于FD在通道C3至C5上的部分(图4中分别表示为FD_C3、FD_C4和FD_C5)。如前文所述，可以将该层作为步骤S101中的选定层，或者在步骤S101中执行上述判断并将该层作为选定层。

在这样的情况下，可以根据所接收到的FD1和FD2，将该层中包括两个核(K1和K2)的权重参数在深度的维度上拆分(如图4中的箭头A2所示)成两个部分，其中，与FD1相对应的部分中包含部分核FD1_K1(包含核K1的通道C1和C2)和FD1_K2(包含核K2的通道C1和C2)，与FD2相对应的部分中包含部分核FD2_K1(包含核K1的通道C3至C5)和FD2_K2(包含核K2的通道C3至C5)。相应地，这相当于将与权重参数相对应的阵列垂直地划分(如图4中的箭头A3所示)成两个部分，从而生成包含1行2列(即两个运算参数)的运算参数阵列(如图4中的箭头A4所指向的部分)，其中，第1行第1列的运算参数与FD1对应于相同的多个通道(即C1和C2)，第1行第2列的运算参数与FD2对应于相同的多个通道(即C3至C5)。

在另外的实施例中，在步骤S101中，可以根据多个条件确定是否拆分参数，并使得所获得的运算参数阵列同时满足多个条件。

在一个示例中，可以拆分参数，使得所获得的运算参数阵列中的每个运算参数的大小均小于或等于第一阈值，并且所获得的运算参数阵列中的每个运算参数的大小均小于或等于第一阈值。

在另外的示例中，可以拆分参数，使得所获得的运算参数阵列的行数等于第一预定数量的倍数并且运算参数阵列中的每个运算参数的通道的数量均小于或等于第三阈值。

在另外的示例中，可以拆分参数，使得所获得的运算参数阵列的行数等于第一预定数量的倍数并且运算参数阵列的列数等于第二预定数量的倍数。

在另外的示例中，在所获得的运算参数阵列包括大小超出第一阈值的运算参数的情况下，可以至少对大小超出第一阈值的运算参数所在的行和/或列在深度和核的数量之中的至少一个维度上进行细分，使得经细分后的运算参数阵列中的每个运算参数的大小均小于或等于第一阈值。

在通过步骤S101获得包含多个运算参数的运算参数阵列之后，方法100可以继续到步骤S105，其中，分别使用所获得的运算参数阵列中的每个运算参数，对选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列。

图5示出根据本申请的实施例的使用拆分出的运算参数执行运算的示例。在图5中，假设针对输入数据FD使用具有3个核K1至K3执行卷积运算，其中，FD具有5个通道，分别为FD_C1至FD_C2，并且核K1至K3中的每一个也具有5个通道，分别为K1_C1～K1_C5、K2_C1～K2_C5和K3_C1～K3_C5。

如图5所示，假设在步骤S101中将权重参数在深度和核的数量这两个维度上拆分成4个部分，从而获得包含两行两列的运算参数阵列，其中，运算参数阵列的第1行第1列的运算参数对应于核K1在通道C1和C2上的部分以及核K2在C1和C2上的部分，第1行第2列的运算参数对应于核K1和K2在通道C3至C5上部分，第2行第1列的运算参数对应于核K3至K5在通道C1和C2上的部分，并且第2行第2列的运算参数对应于核K3至K5在通道C3至C5上的部分。

在步骤S105中，使用运算参数阵列的第1行第1列的运算参数对输入数据FD的通道C1和C2上的部分执行卷积运算，生成部分运算结果FD’_(C1-C2)_1；使用运算参数阵列的第1行第2列的运算参数对输入数据FD的通道C3至C5上的部分执行卷积运算，生成部分运算结果FD’_(C3-C2)_2；使用运算参数阵列的第2行第1列的运算参数对输入数据FD的通道C1和C2上的部分执行卷积运算，生成部分运算结果FD’_(C3-C5)_1；并且使用运算参数阵列的第2行第2列的运算参数对输入数据FD的通道C3至C5上的部分执行卷积运算，生成部分运算结果FD’_(C3-C5)_2。

如图5所示，所生成的4个部分运算结果可以形成具有2行2列的部分运算结果阵列。在图5中的双向箭头的下方和上方分别示出所生成的部分运算结果阵列和该阵列中的每个部分运算结果的更直观的形式。

图5示出卷积层的示例。然而，根据本申请的实施例的方法的原理同样可以适用于卷积神经网络中的其他类型的层。例如，如果图5中的特征数据FD是一个残差层的输入数据，则可以在步骤S101中对该残差层中的权重参数在深度和核的数量中的至少一个维度上进行拆分，以获得包含多个运算参数的运算参数阵列；然后，在步骤S105中，分别使用该运算参数阵列中的每个运算参数，对该残差层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行运算，包括分别对使用每个运算参数所计算出的部分结果与输入数据中的对应通道上的数据进行逐点加运算。由此，可以获得包括多个部分运算结果的部分运算结果阵列。

步骤S105可以依次针对每个运算参数串行地执行，也可以针对每个运算参数并行地执行，也可以针对每行或每列并行地执行。

在获得部分运算结果阵列之后，方法100可以继续到步骤S110，以基于所获得的部分运算结果阵列来生成一个或多个输出数据。如果选定层是卷积神经网络的最终的输出层，则可以基于所获得的部分运算结果阵列生成一个输出数据，作为整个卷积神经网络的最终输出结果。如果选定层是卷积神经网络的输入层或中间层(隐藏层)，则可以根据需要选择以下面的任何一种方式生成输出数据，并将所生成的输出数据提供给下一层：

-将部分运算结果阵列的每个部分运算结果分别作为选定层的输出数据提供给下一层；

-基于所获得的部分运算结果阵列生成一个输出数据并提供给出下一喜忧参半；以及

-合并部分运算结果阵列中的一些相邻的行的部分运算结果和/或一些相邻的列的部分运算结果，从而将部分运算结果阵列压缩成具有更少的行和/或列的部分运算结果阵列，然后将压缩后的部分运算结果阵列中的每个部分运算结果分别作为选定层的输出数据提供给下一层。

在一个实施例，对于具有多个列的部分运算结果阵列，可以通过对部分运算结果阵列的每个行中的所有部分运算结果进行逐点加运算，将部分运算结果阵列压缩成一列，然后将压缩后的部分运算结果阵列中的每个部分运算结果分别作为选定层的一个输出数据提供给下一层。

例如，对于图5中的部分运算结果阵列FD’，如图6所示，可以对FD’的第1行中的所有部分运算结果(FD’_(C1-C2)_1和FD’_(C1-C2)_2)进行逐点累加，并且对FD’的第2行中的所有部分运算结果(FD’_(C3-C5)_1和FD’_(C3-C5)_2)进行逐点累加，从而生成压缩后的部分运算结果阵列FD”。压缩后的部分运算结果阵列FD”包含2行1列，其中，第1行的部分运算结果FD’_(C1-C2)对应于在通道C1和C2上的部分运算结果，第2行的部分运算结果FD’_(C3-C5)对应于在通道C3至C5上的部分运算结果。然后，可以将FD’_(C1-C2)和FD’_(C3-C5)作为两个输出数据提供给下一层。

然后，在下一层中可以继续应用方法100。例如，如前文所述，可以在步骤S101中，响应于接收到多个部分输入数据，根据每个部分输入数据拆分该层的权重参数，使得所获得的运算参数阵列的列数等于该层所接收到的多个部分输入数据的数量，并且每列的所有运算参数与所接收到的多个部分输入数据中的一个对应于相同的一个或多个通道。

在另外的实施例中，对于包含多个行的部分运算结果阵列，可以通过将部分运算结果阵列的每个列中的所有部分运算结果在深度方向上拼接在一起，将部分运算结果阵列压缩成一行，然后将压缩后的部分运算结果阵列中的每个部分运算结果分别作为选定层的一个输出数据提供给下一层。

例如，对于图5中的部分运算结果阵列FD’，如图7所示，可以将FD’的第1列中的所有部分运算结果(FD’_(C1-C2)_1和FD’_(C3-C5)_1)在深度方向上将各自的通道拼接在一起，并且将FD’的第1列中的所有部分运算结果(FD’_(C1-C2)_2和FD’_(C3-C5)_2)在深度方向上将各自的通道拼接在一起，从而生成压缩后的部分运算结果阵列FD”。压缩后的部分运算结果阵列FD”包含1行2列，其中，第1列的部分运算结果FD’_1和第2列的部分运算结果FD’_2均具有通道C1至C5。然后，可以将FD’_1和FD’_2作为两个输出数据提供给下一层。

随后，在下一层中，例如，可以针对每个部分输入数据，使用该层的权重参数执行运算，然后对运算后所获得的结果逐点累加。例如，如图8所示，在下一层中接收到例如图7所示的两个部分输入数据FD’_1和FD’_2，并且在下一层中的权重参数具有K1至K3这三个核，每个核具有C1至C5五个通道，则可以先使用权重参数分别对每个部分输入数据FD’_1和FD’_2执行运算，并获得两个部分输出数据FD”_1和FD”_2，然后可以对FD”_1和FD”_2进行逐点累加，从而获得下一层的最终输出数据FD”’。在图8所示的示例中，也可以不进行最后的逐点加运算，而是直接将两个部分输出数据FD”_1和FD”_2直接提供给再下一层。在另外的示例中，在下一层中，也可以先对所接收到的两个部分输入数据进行逐点累加，然后针对所获得的完整的输入数据执行常规的运算，或者应用根据本申请的实施例的方法执行运算。在另外的示例中，在下一层中，也可以直接应用本申请的实施例的方法，先对下一层的权重参数进行拆分。

在另外的实施例中，对于包含多个行和多个列的部分运算结果阵列，可以通过对部分运算结果阵列的每行的部分运算结果进行逐点累加并且将压缩后的部分运算结果阵列的每列的所有部分运算结果在深度方向上拼接在一起，或者通过将部分运算结果阵列的每列的所有部分运算结果在深度方向上拼接在一起并且对压缩后的部分运算结果阵列的每行的部分运算结果进行逐点累加，来生成一个输出数据。

例如，可以如图9所示那样地将图6和图7所示的示例结合起来，从而生成一个输出数据FD’，也可以如图10所示那样地将图6和图7所示的示例结合起，从而生成一个输出数据FD’。可以意识到，图9和图10所示的示例中的最终的输出数据是相同的。

在另外的实施例中，对于包含多个行和多个列的部分运算结果阵列，可以通过采用与前文所述的压缩方式相类似的方式对部分运算结果阵列在行和/或列上进行压缩，从而获得具有更少的行和/或列的部分运算结果阵列，然后将压缩后的部分运算结果阵列中的每个部分运算结果分别作为输出数据提供给下一层。

例如，具有3行3列的部分运算结果阵列，可以对第1行第1列的部分运算结果和第1行第2列的部分运算结果进行逐点累加，从而获得具有3行2列的部分运算结果阵列；然后，将压缩后的部分运算结果阵列的第2行第1列的部分运算结果和第3行第2列的部分运算结果在深度方向上将各自的通道拼接在一起，从而获得具有2行2列的更小的部分运算结果阵列；然后，将所获得的具有2行2列的更小的部分运算结果阵列中的每个部分运算结果分别作为输出数据提供给下一层。

图11和图12示出根据本申请的实施例的可以用于执行上述方法的装置的框图。

如图11所示，示例装置1100可以包括一个或多个处理器1110。处理器1110可以是具有数据处理能力和/或指令执行能力的任何形式的处理单元，例如通用CPU、GPU或者专用的神经网络处理器或加速器等。例如，处理器1110可以执行根据本申请的实施例的方法。另外，处理器1110还可以控制装置1110中的其他部件，以执行所期望的功能。

处理器1110可以通过总线系统和/或其他形式的连接机构(未示出)与存储器1120以及I/O接口1130相连。

存储器1120可以包括各种形式的计算机可读写存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。例如，在配合神经网络专用处理器使用的情况下，存储器1120也可以是承载专用处理器的芯片上的RAM。存储器1120可以包括用于指示装置1100执行根据本申请实施例的对神经网络的特征数据进行适配的方法的程序指令。

I/O接口1130可以用于向处理器1110提供参数或数据并且输出经过处理器1110处理的结果数据。

另外，如图12所示，示例装置1200可以包括拆分器1210、运算器1220和生成器1230。

拆分器1210可以被配置为被配置为在深度和核的数量之中的至少一个维度上拆分卷积神经网络中的选定层的权重参数以获得包含多个运算参数的运算参数阵列，运算参数阵列的每行的所有运算参数来自权重参数的核的集合的同一子集并且没有相同的通道，并且每列的每个运算参数分别来自权重参数的核的集合的不同子集并且具有相同的一个或多个通道。在一个实施例中，拆分器1210可以被配置为执行例如示例方法100中的步骤S101。

运算器1220可以被配置为分别使用运算参数阵列中的每个运算参数，对选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列。在一个实施例中，运算器1220可以被配置为执行例如示例方法100中的步骤S105。

生成器1230可以被配置为基于部分运算结果阵列，生成选定层的一个或多个输出数据。在一个实施例中，生成器1230可以被配置为执行例如示例方法100中的步骤S110。

应当理解，图11和图12所示的装置1100和1200仅是示例性的，而非限制性的。根据需要，根据本申请的实施例的装置可以具有其他部件和/或结构。

通过根据本申请的实施例的方法和/或装置，能够将卷积神经网络中的大参数的卷积操作拆分成若干小的卷积操作，并保持拆分前后的结果一致，有利于提高运行的并行度和/或执行效率。另外，还可以绕开硬件(例如专用的硬件加速器)的限制，从而可以适用于使用任意大小的权重参数的卷积操作。另外，通过将大的权重参数拆分成若干小的权重参数，可以确保高速存储器能够完全地缓存每次运算中的权重参数，从而可以确保运算的正确性，并能够减少数据搬运的次数，有利于提高硬件的执行效率。

除非上下文清楚地另有要求，否则贯穿说明书和权利要求书，措词“包括”、“包含”等应当以与排他性或穷尽性的意义相反的包括性的意义来解释，也就是说，应当以“包括但不限于”的意义来解释。另外，措词“在本文中”、“上文”、“下文”以及相似含义的措词在本申请中使用时应当指作为整体的本申请，而不是本申请的任何具体部分。在上下文允许时，在使用单数或复数的以上描述中的措词也可以分别包括复数或单数。关于在提及两个或多个项目的列表时的措词“或”，该措词涵盖该措词的以下解释中的全部：列表中的任何项目，列表中的所有项目，以及列表中的项目的任何组合。

本申请实施例的以上详细描述不打算是穷尽性的或者将本申请局限于上文所公开的确切形式。尽管以上出于说明的目的而描述了本申请的具体实施例和示例，但是如本领域技术人员将认识到的那样，在本申请范围内可能有各种等效的修改。例如，尽管处理或块以给定的次序呈现，但是替代的实施例可以以不同的次序执行具有这些步骤的处理或者以不同的次序采用具有这些块的系统，并且一些处理或块可以被删除、移动、添加、细分、组合和/或修改。这些处理或块中的每个可以以各种不同的方式来实现。另外，虽然处理或块有时被示为串行执行，但是替代地，这些处理或块也可以并行执行，或者可以在不同时间执行。

可以将在本文中所提供的本申请的教导应用于其他系统，而不必是上述的系统。可以组合上述的各个实施例的元件和动作，以提供另外的实施例。

虽然已经描述了本申请的一些实施例，但是这些实施例仅作为示例而呈现，而不打算限制本申请的范围。实际上，在本文中所描述的新颖方法和系统可以以多种其他形式来实施。另外，可以在不脱离本申请的范围的情况下，在本文中所描述的方法和系统的形式上做出各种省略、替换和改变。

Claims

1.一种执行卷积神经网络中的运算的方法，包括：

在深度和核的数量之中的至少一个维度上拆分所述卷积神经网络中的选定层的权重参数以获得包含多个运算参数的运算参数阵列，所述运算参数阵列的每行的所有运算参数来自所述权重参数的核的集合的同一子集并且没有相同的通道，并且每列的每个运算参数分别来自所述权重参数的核的集合的不同子集并且具有相同的一个或多个通道；

分别使用所述运算参数阵列中的每个运算参数，对所述选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行所述选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列；以及

基于所述部分运算结果阵列，生成所述选定层的一个或多个输出数据；

其中，拆分权重参数包括：

在所述权重参数的核的数量大于或等于第一预定数量的情况下拆分所述权重参数，使得所获得的运算参数阵列的行数等于第一预定数量的倍数，所述第一预定数量由用于处理卷积神经网络中的运算的处理器的数量来确定。

2.根据权利要求1所述的方法，其中，拆分权重参数包括：

在所述权重参数的大小超出第一阈值的情况下拆分所述权重参数，使得所获得的运算参数阵列中的每个运算参数的大小均小于或等于所述第一阈值。

3.根据权利要求1所述的方法，其中，拆分权重参数包括：

在所述权重参数的核的数量超出第二阈值的情况下拆分所述权重参数，使得所获得的运算参数阵列中的每个运算参数的核的数量均小于或等于所述第二阈值。

4.根据权利要求1所述的方法，其中，拆分权重参数包括：

在所述权重参数的通道的数量超出第三阈值的情况下拆分所述权重参数，使得所获得的运算参数阵列中的每个运算参数的通道的数量均小于或等于所述第三阈值。

5.根据权利要求1所述的方法，其中，拆分权重参数包括：

在所述权重参数的通道的数量大于或等于第二预定数量的情况下拆分所述权重参数，使得所获得的运算参数阵列的列数等于所述第二预定数量的倍数。

6.根据权利要求1所述的方法，其中，拆分权重参数包括：

如果所述选定层接收到多个部分输入数据，任何两个部分输入数据均不具有相同的通道，并且所述多个部分输入数据的集合对应于所述选定层的完整的输入数据，则根据每个部分输入数据拆分所述权重参数，使得所获得的运算参数阵列的列数等于所述多个部分输入数据的数量，并且每列的所有运算参数与所述多个部分输入数据中的一个对应于相同的一个或多个通道。

7.根据权利要求1所述的方法，其中，拆分权重参数还包括：

在所获得的运算参数阵列包括大小超出第一阈值的运算参数的情况下，至少对所述运算参数所在的行和/或列在深度和核的数量之中的至少一个维度上进行细分，使得经细分后的运算参数阵列中的每个运算参数的大小均小于或等于第一阈值。

8.根据权利要求1所述的方法，生成输出数据包括：

所述部分运算结果阵列中的每个部分运算结果对应于所述选定层的一个输出数据。

9.根据权利要求1所述的方法，其中，生成输出数据包括：

如果所述部分运算结果阵列包含多个列，则通过对所述部分运算结果阵列的每个行中的所有部分运算结果进行逐点加运算，将所述部分运算结果阵列压缩成一列，压缩后的部分运算结果阵列中的每个部分运算结果对应于所述选定层的一个输出数据。

10.根据权利要求1所述的方法，其中，生成输出数据包括：

如果所述部分运算结果阵列包含多个行，则通过将所述部分运算结果阵列的每个列中的所有部分运算结果在深度方向上拼接在一起，将所述部分运算结果阵列压缩成一行，压缩后的部分运算结果阵列中的每个部分运算结果对应于所述选定层的一个输出数据。

11.根据权利要求1所述的方法，其中，生成输出数据包括：

如果所述部分运算结果阵列包含多个行和多个列，则通过对所述部分运算结果阵列的每行的部分运算结果进行逐点累加并且将压缩后的部分运算结果阵列的每列的所有部分运算结果在深度方向上拼接在一起，或者通过将所述部分运算结果阵列的每列的所有部分运算结果在深度方向上拼接在一起并且对压缩后的部分运算结果阵列的每行的部分运算结果进行逐点累加，生成所述选定层的一个输出数据。

12.一种执行卷积神经网络中的运算的装置，包括：

一个或多个处理器，被配置为至少执行根据权利要求1至11中的任一项所述的方法的步骤。

13.一种执行卷积神经网络中的运算的装置，包括：

拆分器，被配置为在深度和核的数量之中的至少一个维度上拆分所述卷积神经网络中的选定层的权重参数以获得包含多个运算参数的运算参数阵列，所述运算参数阵列的每行的所有运算参数来自所述权重参数的核的集合的同一子集并且没有相同的通道，并且每列的每个运算参数分别来自所述权重参数的核的集合的不同子集并且具有相同的一个或多个通道；

运算器，被配置为分别使用所述运算参数阵列中的每个运算参数，对所述选定层的输入数据中的与所使用的运算参数的通道相对应的通道上的数据执行所述选定层的运算，以获得包括多个部分运算结果的部分运算结果阵列；以及

生成器，被配置为基于所述部分运算结果阵列，生成所述选定层的一个或多个输出数据，

其中所述拆分器在所述权重参数的核的数量大于或等于第一预定数量的情况下拆分所述权重参数，使得所获得的运算参数阵列的行数等于第一预定数量的倍数，所述第一预定数量由用于处理卷积神经网络中的运算的处理器的数量来确定。

14.一种非临时性存储介质，在其上存储有程序指令，所述程序指令在被计算装置执行时执行根据权利要求1至11中的任一项所述的方法的步骤。