CN111738432B

CN111738432B - 一种支持自适应并行计算的神经网络处理电路

Info

Publication number: CN111738432B
Application number: CN202010794982.1A
Authority: CN
Inventors: 周军; 贾丛含; 阙禄颖; 甘家彦
Original assignee: University of Electronic Science and Technology of China
Current assignee: Chongqing Lianxin Zhikang Biotechnology Co ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-12-29
Anticipated expiration: 2040-08-10
Also published as: CN111738432A

Abstract

本发明公开了一种支持自适应并行计算的神经网络处理电路，属于神经网络硬件实现技术领域。该电路包含指令控制器、交互单元、特征图控制器、特征图存储单元、特征图缓存单元、权重控制器、权重存储单元、权重缓存单元、处理单元阵列；指令控制器中设置的并行模式判决器，根据当前层的特征图结构和权重结构，建立行并行模式、输入通道并行模式、混合并行模式三种并行模式的层计算模型，计算并选取完成当前层运算最少操作周期数的并行模式作为当前层的并行模式。本发明支持具有任意大小的特征图结构和权重结构的卷积网络，对不同的卷积网络能自适应的得到最佳的计算方案，使乘法器最大效率利用，减少资源浪费，提升处理速度。

Description

一种支持自适应并行计算的神经网络处理电路

技术领域

本发明属于神经网络硬件实现技术领域，涉及一种自适应并行计算的神经网络处理电路，自适应是指根据每一层的网络结构，自动选取并行模式，从而充分利用运算资源，提高硬件运算效率。

背景技术

随着现代社会人工智能技术的不断发展，深度学习算法的突破和当前计算能力的增加，基于深度神经网络的机器学习算法已经在视觉、语音等多个领域中体现出了优秀的性能。神经网络的模型规模日益复杂,这也就对执行神经网络运算的处理结构提出了要求。通用的冯诺依曼结构处理器往往在能效比上难以提供令人满意的性能。而针对神经网络的专用硬件加速器具有高并行度的特点，使神经网络在训练和推理中进行的大量运算不再受传统冯诺依曼结构处理器的制约，因此成为一种合理的选择。如今神经网络硬件加速器，主要分为处理大量数据的云端加速器如GPU、TPU，和在终端处理中小量数据的神经网络专用芯片。对于GPU和TPU这种云端硬件加速器，采用的方案为终端传感器配合将采集的数据通过网络送入云端集中计算。针对终端的专用神经网络加速芯片一般采用低比特量化，使用固定的并行模式，可以处理较为简单的神经网络任务。

对于上文提到的一些现有的相关技术，如GPU和TPU等设备，尽管具有较高的并行度，且有完整的神经网络编程框架，但其成本较高，待机功耗大，无法应用到较小的嵌入式物联网终端当中。而对于专用的神经网络芯片，多数只支持全连接神经网络的推理。支持卷积操作的神经网络芯片其并行卷积策略往往受限于卷积核大小，即每个周期内处理的数据量多少，由卷积核形状及大小决定。这种卷积策略并行模式固定，当处理不同大小的卷积神经网络时，其处理单元在特征图的边缘会出现利用率低的情况。从而使推理速度变慢，增加整体功耗。

发明内容

本发明针对上述问题提出了一种支持自适应并行计算的神经网络处理电路。由于神经网络结构的灵活性，本发明处理电路能够针对每一层网络结构，自适应的选取最为合适的并行计算策略。对于特征图较大，通道数较少的优先使用行并行卷积计算方案；对于通道数较多，特征图较小的优先使用输入通道并行卷积计算方案；并且同一层内还可混合使用两种并行计算方案。

本发明采用的技术方案如下：

一种支持自适应并行计算的神经网络处理电路，该处理电路包含指令控制器、交互单元、特征图控制器、特征图存储单元、特征图缓存单元、权重控制器、权重存储单元、权重缓存单元、处理单元阵列。

所述指令控制器用于接收外部输入命令，以及控制特征图控制器、权重控制器和处理单元阵列。指令控制器中设置有并行模式判决器，并行模式判决器根据当前层的特征图结构和权重结构，计算行并行模式、输入通道并行模式、混合并行模式三种并行模式完成当前层运算各需要的操作周期数，选取最少操作周期数的并行模式作为当前层的并行模式，若出现两种及两种以上并行模式的操作周期数同时为最少时，优先选取行并行模式，输入通道并行模式次之；然后指令控制器将相应的并行模式指令分别发送给特征图控制器、权重控制器和处理单元阵列。

所述交互单元与特征图存储单元、权重存储单元相连，交互单元用于与外部进行数据交互，如初始数据的输入、计算结果的输出。

所述特征图存储单元用于存储交互单元传输的特征图数据；所述权重存储单元用于存储交互单元传输的权重数据。

所述特征图控制器用于接收指令控制器发送的并行模式指令，根据并行模式指令将特征图存储单元中的特征图数据整形后，存放到特征图缓存单元中。

所述权重控制器用于接收指令控制器发送的并行模式指令，根据并行模式指令将权重存储单元中的权重数据整形后，存放到权重缓存单元中。

所述处理单元阵列用于接收指令控制器发送的并行模式指令，根据并行模式指令将特征图缓存单元和权重缓存单元中的缓存数据进行计算，然后将计算结果存入特征图存储单元。

所述处理单元阵列包括S个乘法器、S个加法器，S个乘法器和S个加法器按每组

个分为

组；所述特征图结构包括特征图的高，即行数H_f；特征图的宽，即列数W_f；特征图的通道数C_f；令

表示特征图第

通道、

行、

列的特征图数据，其中，1≤

≤C_f，1≤

≤ H_f，1≤

≤W_f；。所述权重结构包括权重的高，即行数H_w；权重的宽，即列数W_w；权重中单个卷积核的通道数，即输入通道数C_w；权重中卷积核的个数，即输出通道数U_w，令

表示权重第

输入通道、

输出通道、

行、

列的权重数据，其中1≤

≤C_w，1≤

≤U_w，1≤

≤ H_w，1≤

≤W_w。

所述行并行模式的计算过程为：

A1. 取出前M个卷积核中，第一个输入通道的第一行第一列数据

、

、…、

，共取出了M个权重数据。若权重中卷积核的个数U_w≤

，则令M=U_w；若权重中卷积核的个数U_w＞

，则令M=

。

A2. 取出特征图中第一个通道中第1行~第N行的第1列特征图数据

、

、…、

，共取出了N个特征图数据。若特征图的行数H_f≤

+H_w-1，则令N=H_f-H_W+1；若特征图的行数H_f＞

+H_w-1，则令N=

。

A3. 将M个权重数据和N个特征图数据分别做乘法。当M=

且N=

时，此时使用了 S个乘法器。

A4. 令权重数据保持不变，特征图数据向右滑动，改为取第1行~第N行的下一列特征图数据；返回步骤A3，直到完成第1行~第N行前P列的特征图数据的计算，其中P=W_f-W_w+1。此时，若当前权重数据是最后一行最后一列，则跳到步骤A6；若当前权重数据不是最后一行最后一列，则进行下一步。

A5. 按照从左至右的顺序逐行切换权重数据，将前M个卷积核中第一个输入通道的第

行第

列的权重数据

、

、…、

看作第一个输入通道的第一行第一列的权重数据，将特征图第一个通道的第

行第

列的特征图数据看作第一行第一列的特征图数据，其中

=

，

=

，然后返回步骤A2。

A6. 若当前特征图的行数H_f＞

+H_w-1，则将当前特征图第

+1行至最后一行看作新的特征图，得到新的特征图行数H_f，且返回步骤A1；若当前特征图的行数H_f≤

+H_w-1，则第一个通道的特征图数据全部计算完成，进行下一步。

A7. 若当前特征图通道数C_f=1，则跳到步骤A8；若当前特征图通道数C_f＞1，则特征图向后切换到下一个通道，并将当前特征图通道至最后一个特征图通道看作新的特征图，得到新的特征图通道数C_f，权重也向后切换一个输入通道，将当前权重输入通道至最后一个输入通道看作新的权重，得到新的权重输入通道数C_w，返回步骤A1。

A8. 若当前卷积核个数U_w≤

，则计算结束；若当前卷积核个数U_w＞

，则将当前第

+1个卷积核至最后一个卷积核看作新的卷积核，得到新的卷积核个数U_w，且C_w、C_f恢复为原始值，返回步骤A1。

所以假设特征图的高为

+2，宽为

+2，通道数为

，权重的高为

，宽为

，输入通道数为

，输出通道数为

，则每一次运算都可以保证S个乘法器同时工作，使乘法器利用率最大化。

如果特征图的高为

+3，宽为

+3，通道数为

，权重的高为

，宽为

，输入通道数为

，输出通道数为

，当特征图计算到剩余行数小于

时，如果使用上述的行并行方式计算就不能保证S个乘法器充分利用。所以本发明提出了输入通道并行模式，所述输入通道并行模式的计算过程为：

B1. 取出前M个卷积核中，前N个输入通道的第一行第一列权重数据

、

、…、

，

、

、…、

，…，

、

、…、

，共取出了M组权重数据，每组权重数据包含N个权重数据。若权重的输入通道数C_w≤

，则令N= C_w；若权重的输入通道数C_w＞

，则令N=

。若权重中卷积核的个数U_w≤

，则令M=U_w；若权重中卷积核的个数U_w＞

，则令M=

。

B2. 取出特征图中前N个通道的第一行第一列特征图数据

、

、…、

，共取出了N个特征图数据。若特征图的通道数C_f≤

，则令N=C_f；若特征图的通道数C_f＞

，则令N=

。

B3. 将取出的M组权重数据依次和N个特征图数据做乘法。当M=

且N=

时，此时使用了S个乘法器。

B4. 令权重数据保持不变，按照从左至右的顺序逐行切换特征图数据，返回步骤B3，直到完成前N个通道的前Q行前P列特征图数据的计算，其中P=W_f-W_w+1，Q=H_f-H_w+1。此时，若当前权重数据是最后一行最后一列，则跳到步骤B6；若当前权重数据不是最后一行最后一列，则进行下一步。

B5. 按照从左至右的顺序逐行切换权重数据，将前M个卷积核中前N个输入通道的第

行第

列的权重数据

、

、…、

，

、

、…、

，…，

、

、…、

看作前N个输入通道的第一行第一列的权重数据，将特征图前N个通道的第

行第

列的特征图数据看作第一行第一列的特征图数据，其中

=

，

=

；然后返回步骤 B2。

B6. 若当前特征图通道数C_f≤

，则前M个卷积核的所有权重数据已完成计算，进行下一步。若当前特征图通道数C_f＞

，则将当前特征图第N+1个通道至最后一个特征图通道作为新的特征图，得到新的特征图通道数C_f，将权重前M个卷积核的第N+1个输入通道至最后一个输入通道作为新的权重，得到新的权重输入通道数C_w，返回步骤B1。

B7. 若当前卷积核个数U_w≤

，则计算结束；若当前卷积核个数U_w＞

，则将第

+1个卷积核至最后一个卷积核作为新的权重，得到新的权重卷积核个数U_w，且C_w、C_f恢复为原始值，返回步骤B1。

所以假设特征图的高为

+3，宽为

+3，通道数为

，权重的高为

，宽为

，输入通道数为

，输出通道数为

，输入通道并行模式能够使每一次运算都使用S个乘法器同时工作，使乘法器利用率最大化。

如果特征图的高为

+3，宽为

+3，通道数为

+1，权重的高为

，宽为

，输入通道数为

+1，输出通道数为

，若只使用行并行模式，则特征图在计算到剩余行数小于

时，就不能保证所有乘法器同时工作，造成运算资源浪费。若只使用输入通道并行模式，则特征图在计算到剩余通道小于

时，同样会造成运算单元较大的浪费。所以可先使用行并行模式计算，待特征图计算到剩余行数小于

时，转为输入通道并行模式，这就确保乘法器能充分利用，减小资源浪费带来的功耗。

所述混合并行模式的计算过程为：

C1. 将特征图拆分为A、B两部分，其中A部分中特征图的行数为

+H_W-1，B部分中特征图的行数为H_f-

。

C2. 使用行并行模式计算A部分。

C3. 若B部分中特征图的行数大于

+H_W-1，则把B部分特征图作为新的特征图，得到新的特征图行数H_f，返回步骤C1；若B部分中特征图的行数等于

+H_W-1，则使用行并行模式计算B部分；若B部分中特征图的行数小于

+H_W-1，则使用通道并行模式计算B部分。完成全部特征图数据的计算，计算结束。

与现有技术相比，本发明具有如下突出实质性特点和显著优点：

1、自适应选择并行模式：本发明通过并行模式判决器，能够自适应的选取合适的并行模式，使S个乘法器最大效率利用，相比传统的方案架构，减少资源浪费，处理速度有很大提升。

2、灵活性高：本发明支持具有任意大小的特征图结构和权重结构的卷积网络，对不同的卷积网络能得到最佳的计算方案。

3、混合并行模式：本发明提出混合并行模式，在同一层卷积神经网络中，使用行并行、输入通道并行两种并行模式。相比同一层使用单一的并行模式，提高了资源利用率。

附图说明

图1为支持自适应并行计算的神经网络处理电路示意图。

图2为实施例一行并行模式计算过程一示意图。

图3为实施例一行并行卷积计算过程二示意图。

图4为实施例一行并行卷积计算过程三示意图。

图5为实施例一行并行卷积计算过程四示意图。

图6为实施例二输入通道并行卷积计算过程一示意图。

图7为实施例二输入通道并行卷积计算过程二示意图。

图8为实施例二输入通道并行卷积计算过程三示意图。

图9为实施例二输入通道并行卷积计算过程四示意图。

图10为实施例三混合并行模式计算过程示意图。

图11为实施例四的特征图和权重示意图。

图12为自适应判断并行模式流程图。

图13为并行模式判决器示意图。

附图标号说明：A表示特征图，B表示权重。

具体实施方式

为了使读者对本发明的目的、技术方案及优点更加明白，以下结合实例及附图，对本发明做进一步说明。

图1为支持自适应并行计算的神经网络处理电路示意图，该电路包含指令控制器、交互单元、特征图控制器、特征图存储单元、特征图缓存单元、权重控制器、权重存储单元、权重缓存单元、处理单元阵列。

结合附图12对本实施例的自适应判断并行模式流程详细说明，在每一层神经网络计算前，指令控制器会获取当前层特征图结构和当前层权重结构两部分信息，指令控制器中的并行模式判决器根据当前层特征图结构、当前层权重结构、同时结合乘法器个数，计算行并行模式、输入通道并行模式、混合并行模式完成这一层运算各需要的操作周期数。最终选取最少操作周期数的并行模式作为当前层的并行模式，然后指令控制器将相应的并行模式指令分别发送给特征图控制器、权重控制器和处理单元阵列。特征图控制器和权重控制器会根据相应的并行模式指令将特征图存储单元和权重存储单元的数据对应的存放到各自的缓存中。处理单元阵列依据并行模式指令将特征图缓存单元和权重缓存单元中的缓存数据进行计算，然后将计算结果存入特征图存储单元。当前层神经网络计算结束后，指令控制器判断是否是最后一层神经网络，若是，则计算结束，若不是，则开始下一层神经网络的计算。

结合附图13对本实施例的并行模式判决器详细说明，所述并行模式判决器包括计算单元A、计算单元B、计算单元C、比较器、以及选择器，所述计算单元A、计算单元B、计算单元C的输入为特征图结构、权重结构、乘法器个数三组数据，其中特征图结构和权重结构两组数据由外部指令输入，对于确定的电路，乘法器个数为固定不变的常值。计算单元A、计算单元B、计算单元C根据输入的三组数据分别计算出行并行模式、输入通道并行模式、混合并行模式完成当前层运算各需要的操作周期数，然后将计算结果传输给比较器。所述比较器将输入的三组并行模式的操作周期数进行大小比较，得到最小操作周期数对应并行模式的索引（比如行并行模式操作周期数最小，输出就是0；输入通道并行模式操作周期数最小，输出就是1；混合并行模式操作周期数最小，输出就是2），将索引发送给选择器。所述选择器的输入为行并行模式指令、输入通道并行模式指令、混合并行模式指令，选择器根据索引输出对应的并行模式指令。若出现两种及两种以上并行模式的操作周期数同时为最少时，比较器优先选取行并行模式，输入通道并行模式次之。

实施例一：假设实际方案中共有144个乘法器，将这144个乘法器分为每组6个，共24组。当一层的输入特征图结构为H_f*W_f*C_f=8*8*8，权重结构为H_w*W_w*C_w*U_w=3*3*8*24。经过并行模式判决器计算，行并行模式完成这一层计算所需的操作周期为432，输入通道并行模式所需操作周期为648，混合并行模式与行并行模式所需操作周期数一致，所以选取行并行模式为当前层并模式。

其计算方法为：

（1）参考图2，取出24个卷积核中，第一个输入通道的第一行第一列权重数据

、

、…、

，共取出了24个权重数据。

（2）参考图2，取出特征图中第一个通道的第1行~第6行的第1列特征图数据

、

、…、

，共取出了6个特征图数据。

（3）将24个权重数据和6个特征图数据分别做乘法。

（4）参考图3，权重数据保持不变，特征图数据向右滑动，改为取第1行~第6行的下一列特征图数据；返回步骤（3），直到完成第1行~第6行前6列的特征图数据的计算。

（5）参考图1、图4、图5，按照从左至右的顺序逐行切换权重数据，将24个卷积核中第一个输入通道的第

行第

列的权重数据

、

、…、

作为第一个输入通道的第一行第一列的权重数据，将特征图第一个通道的第

行第

列的特征图数据作为第一行第一列的特征图数据，其中

=

，

=

，然后返回步骤（2），直到完成一个通道特征图数据的计算。

（6）特征图向后切换到下一个通道，并将第二个特征图通道至最后一个特征图通道作为新的特征图，权重也向后切换一个输入通道，将第二个输入通道至最后一个输入通道作为新的权重，返回步骤（1）。直到完成全部特征图数据和权重数据的计算，计算结束。

实施例二：假设实际方案中共有144个乘法器，将这144个乘法器分为每组6个，共24组。当一层的输入特征图结构为H_f*W_f*C_f=7*8*6，权重结构为H_w*W_w*C_w*U_w=3*3*6*24。经过计算，行并行模式完成这一层计算所需的操作周期为324，输入通道并行模式所需操作周期为270，混合并行模式与输入通道并行模式所需操作周期数一致。所以选取输入通道并行模式为当前层并行模式。

其计算方法为：

（1）参考图6，取出24个卷积核中，6个输入通道的第一行第一列权重数据

、

、…、

，

、

、…、

，…，

、

、…、

，共取出了24组权重数据，每组权重数据包含6个权重数据。

（2）参考图6，取出特征图中6个通道的第一行第一列特征图数据

、

、…

，共取出了6个特征图数据。

（3）令取出的24组权重数据依次和6个特征图数据做乘法。

（4）参考图7，权重数据保持不变，按照从左至右的顺序逐行切换特征图数据，返回步骤（3），直到完6个通道的前5行前6列特征图数据的计算。

（5）参考图6、图8、图9，按照从左至右的顺序逐行切换权重数据，将24个卷积核中6 个输入通道的第

行第

列的权重数据

、

、…、

，

、

、…、

，…，

、

、…、

作为6个输入通道的第一行第一列的权重数据，将特征图6 个通道的第

行第

列的特征图数据作为第一行第一列的特征图数据，其中

=

，

=

；然后返回步骤（2）。直到完成全部特征图数据和权重数据的计算。计算结束。

实施例三：假设实际方案中共有36个乘法器，将这36个乘法器分为每组6个，共6组。当一层的输入特征图结构为H_f*W_f*C_f=8*8*4，权重结构为H_w*W_w*C_w*U_w=2*2*4*6时。经过计算，行并行模式完成这一层计算所需的操作周期为224，输入通道并行模式所需操作周期为196，混合并行模式所需操作周期为140。所以选取混合并行模式为当前层并行模式。

其计算方法为：

（1）参考图10，将特征图分为A、B两部分，A部分特征图结构为7*8*4，B部分特征图结构为2*8*4。

（2） A部分特征图使用行并行模式计算，B部分特征图使用输入通道并行模式计算，全部特征图数据完成计算，计算结束。

实施例四：参考图11，对于全连接层，若输入特征图是长度为E的向量，先转化为1*1*E的3维特征图结构，若权重为E*F的2维结构，则转化为1*1*E*F的4维权重结构，再使用输入通道并行模式计算。

Claims

1.一种支持自适应并行计算的神经网络处理电路，其特征在于，该处理电路包含指令控制器、交互单元、特征图控制器、特征图存储单元、特征图缓存单元、权重控制器、权重存储单元、权重缓存单元、处理单元阵列；

所述指令控制器用于接收外部输入命令，以及控制特征图控制器、权重控制器和处理单元阵列；指令控制器中设置有并行模式判决器，并行模式判决器根据当前层的特征图结构和权重结构，计算行并行模式、输入通道并行模式、混合并行模式三种并行模式完成当前层运算各需要的操作周期数，选取最少操作周期数的并行模式作为当前层的并行模式，若出现两种及两种以上并行模式的操作周期数同时为最少时，优先选取行并行模式，输入通道并行模式次之；然后指令控制器将相应的并行模式指令分别发送给特征图控制器、权重控制器和处理单元阵列；

所述交互单元与特征图存储单元、权重存储单元相连，交互单元用于与外部进行数据交互；

所述特征图存储单元用于存储交互单元传输的特征图数据；所述权重存储单元用于存储交互单元传输的权重数据；

所述特征图控制器用于接收指令控制器发送的并行模式指令，根据并行模式指令将特征图存储单元中的特征图数据整形后，存放到特征图缓存单元中；

所述权重控制器用于接收指令控制器发送的并行模式指令，根据并行模式指令将权重存储单元中的权重数据整形后，存放到权重缓存单元中；

所述处理单元阵列用于接收指令控制器发送的并行模式指令，根据并行模式指令将特征图缓存单元和权重缓存单元中的缓存数据进行计算，然后将计算结果存入特征图存储单元；

所述处理单元阵列包括S个乘法器，S个乘法器按每组N′个分为M′组；

所述特征图结构包括特征图的行数H_f，特征图的列数W_f，特征图的通道数C_f，令

表示特征图第k通道、i行、j列的特征图数据，其中，1≤k≤C_f，1≤i≤H_f，1≤j≤W_f；所述权重结构包括权重的行数H_w，权重的列数W_w，权重中单个卷积核的通道数，作为输入通道数C_w，权重中卷积核的个数U_w，作为输出通道数，令

表示权重第k′输入通道、r′输出通道、i′行、j′列的权重数据，其中1≤k′≤C_w，1≤r′≤U_w，1≤i′≤H_w，1≤j′≤W_w；

所述行并行模式的计算过程为：

A1.取出前M个卷积核中，第一个输入通道的第一行第一列数据，共取出了M个权重数据；若权重中卷积核的个数U_w≤M′，则令M＝U_w；若权重中卷积核的个数U_w＞M′，则令M＝M′；

A2.取出特征图中第一个通道中第1行～第N行的第1列特征图数据，共取出了N个特征图数据；若特征图的行数H_f≤N′+H_w-1，则令N＝H_f-H_W+1；若特征图的行数H_f＞N′+H_w-1，则令N＝N′；

A3.将M个权重数据和N个特征图数据分别做乘法；

A4.令权重数据保持不变，特征图数据向右滑动，改为取第1行～第N行的下一列特征图数据；返回步骤A3，直到完成第1行～第N行前P列的特征图数据的计算，其中P＝W_f-W_w+1；此时，若当前权重数据是最后一行最后一列，则跳到步骤A6；若当前权重数据不是最后一行最后一列，则进行下一步；

A5.按照从左至右的顺序逐行切换权重数据，将前M个卷积核中第一个输入通道的第i′行第j′列的权重数据看作第一个输入通道的第一行第一列的权重数据，将特征图第一个通道的第i行第j列的特征图数据看作第一行第一列的特征图数据，其中i＝i′，j＝j′，然后返回步骤A2；

A6.若当前特征图的行数H_f＞N′+H_w-1，则将当前特征图第N′+1行至最后一行看作新的特征图，得到新的特征图行数H_f，且返回步骤A1；若当前特征图的行数H_f≤N′+H_w-1，则第一个通道的特征图数据全部计算完成，进行下一步；

A7.若当前特征图通道数C_f＝1，则跳到步骤A8；若当前特征图通道数C_f＞1，则特征图向后切换到下一个通道，并将当前特征图通道至最后一个特征图通道看作新的特征图，得到新的特征图通道数C_f，权重也向后切换一个输入通道，将当前权重输入通道至最后一个输入通道看作新的权重，得到新的权重输入通道数C_w，返回步骤A1；

A8.若当前卷积核个数U_w≤M′，则计算结束；若当前卷积核个数U_w＞M′，则将当前第M′+1个卷积核至最后一个卷积核看作新的卷积核，得到新的卷积核个数U_w，且C_w、C_f恢复为原始值，返回步骤A1；

所述输入通道并行模式的计算过程为：

B1.取出前M个卷积核中，前N个输入通道的第一行第一列权重数据，共取出了M组权重数据，每组包含N个权重数据；若权重的输入通道数C_w≤N′，则令N＝C_w；若权重的输入通道数C_w＞N′，则令N＝N′；若权重中卷积核的个数U_w≤M′，则令M＝U_w；若权重中卷积核的个数U_w＞M′，则令M＝M′；

B2.取出特征图中前N个通道的第一行第一列特征图数据

共取出了N个特征图数据；若特征图的通道数C_f≤N′，则令N＝C_f；若特征图的通道数C_f＞N′，则令N＝N′；

B3.将取出的M组权重数据依次和N个特征图数据做乘法；

B4.令权重数据保持不变，按照从左至右的顺序逐行切换特征图数据，返回步骤B3，直到完成前N个通道的前Q行前P列特征图数据的计算，其中P＝W_f-W_w+1，Q＝H_f-H_w+1；此时，若当前权重数据是最后一行最后一列，则跳到步骤B6；若当前权重数据不是最后一行最后一列，则进行下一步；

B5.按照从左至右的顺序逐行切换权重数据，将前M个卷积核中前N个输入通道的第i′行第j′列的权重数据看作前N个输入通道的第一行第一列的权重数据，将特征图前N个通道的第i行第j列的特征图数据看作第一行第一列的特征图数据，其中i＝i′，j＝j′，然后返回步骤B2；

B6.若当前特征图通道数C_f≤N′，则前M个卷积核的所有权重数据已完成计算，进行下一步；若当前特征图通道数C_f＞N′，则将当前特征图第N+1个通道至最后一个特征图通道看作新的特征图，得到新的特征图通道数C_f，将权重前M个卷积核的第N+1个输入通道至最后一个输入通道看作新的权重，得到新的权重输入通道数C_w，返回步骤B1；

B7.若当前卷积核个数U_w≤M′，则计算结束；若当前卷积核个数U_w＞M′，则将第M′+1个卷积核至最后一个卷积核看作新的权重，得到新的权重卷积核个数U_w，且C_w、C_f恢复为原始值，返回步骤B1；

所述混合并行模式的计算过程为：

C1.将特征图拆分为A、B两部分，其中A部分中特征图的行数为N′+H_W-1，B部分中特征图的行数为H_f-N′；

C2.使用行并行模式计算A部分；

C3.若B部分中特征图的行数大于N′+H_W-1，则把B部分特征图看作新的特征图，得到新的特征图行数H_f，返回步骤C1；若B部分中特征图的行数等于N′+H_W-1，则使用行并行模式计算B部分；若B部分中特征图的行数小于N′+H_W-1，则使用通道并行模式计算B部分；完成全部特征图数据的计算，计算结束。

2.如权利要求1所述的一种支持自适应并行计算的神经网络处理电路，其特征在于，所述并行模式判决器包括计算单元A、计算单元B、计算单元C、比较器、以及选择器，所述计算单元A、计算单元B、计算单元C的输入为特征图结构、权重结构、乘法器个数三组数据，其中特征图结构和权重结构两组数据由外部指令输入，对于确定的电路，乘法器个数为固定不变的常值；计算单元A、计算单元B、计算单元C根据输入的三组数据分别计算行并行模式、输入通道并行模式、混合并行模式完成当前层运算各需要的操作周期数，然后将计算结果传输给比较器；若出现两种及两种以上并行模式的操作周期数同时为最少时，比较器优先选取行并行模式，输入通道并行模式次之；所述比较器将输入的三组并行模式的操作周期数进行大小比较，得到最小操作周期数对应并行模式的索引，将索引发送给选择器；所述选择器的输入为行并行模式指令、输入通道并行模式指令、混合并行模式指令，选择器根据索引输出对应的并行模式指令。

3.如权利要求1所述的一种支持自适应并行计算的神经网络处理电路，其特征在于，对于全连接层，若输入特征图是长度为E的向量，则转化为行数*列数*通道数＝1*1*E的特征图结构，若权重为E*F的2维结构，则转化为行数*列数*输入通道数*输出通道数＝1*1*E*F的权重结构，再使用输入通道并行模式计算。