CN113469326B

CN113469326B - 在神经网络模型中执行剪枝优化的集成电路装置及板卡

Info

Publication number: CN113469326B
Application number: CN202110703450.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2024-04-02
Anticipated expiration: 2041-06-24
Also published as: CN113469326A

Abstract

本发明涉及在神经网络模型中执行剪枝优化的集成电路装置及板卡，其中本发明的计算装置包括在集成电路装置中，该集成电路装置包括通用互联接口和其他处理装置。计算装置与其他处理装置进行交互，共同完成用户指定的计算操作。集成电路装置还可以包括存储装置，存储装置分别与计算装置和其他处理装置连接，用于计算装置和其他处理装置的数据存储。

Description

在神经网络模型中执行剪枝优化的集成电路装置及板卡

技术领域

本发明一般地涉及神经网络领域。更具体地，本发明涉及在神经网络模型中执行剪枝优化的集成电路装置及板卡。

背景技术

近年来，神经网络算法作为人工智能算法中的一个分支类别，在越来越多的领域展现了良好的适配性和优越的性能表现，如：图像识别、目标检测、自然语言处理等，成为了学术界和工业界的研究热点。

然而，神经网络算法的计算量大(可达100亿数量级运算量)，且模型训练需要反向传播过程，消耗大量的硬件资源，传统的通用处理器为了兼顾通用性，无法满足智能应用场景的需求，因此高性能且低功耗的神经网络加速器成为了近年来体系结构领域的研究热点之一。

在神经网络算子中，卷积、池化类有滑动窗口在输入数据的H、W维度上进行滑动计算的算子，当H、W方向的步长(stride)参数大于卷积核(kernel)对应维度的大小时，存在部分输入数据对算子没有被计算使用，这些无效的计算占用了许可硬件资源。

因此一种针对神经网络模型的编译优化方案是迫切需要的。

发明内容

为了至少部分地解决背景技术中提到的技术问题，本发明的方案提供了一种在神经网络模型中执行剪枝优化的集成电路装置及板卡。

在一个方面中，本发明揭露一种在神经网络模型中执行剪枝优化的集成电路装置，包括：处理装置，用以：从神经网络模型的全网络输出数据节点，逆向沿着数据流的方向识别步长大于卷积核大小的初始层；判断接收层是否为卷积或池化类算子，且步长和卷积核大小的参数相同，其中接收层为初始层的下一层；如是，去除接收层及初始层中无效的输入数据；以及计算装置，用以运行去除无效输入数据后的神经网络模型。

进一步地，初始层为卷积层及池化层其中之一。

在神经网络模型具有分支的情况下，如接收层为多层，处理装置判断每一层接收层是否皆为卷积或池化类算子，且步长和卷积核大小的参数相同。

当去除无效输入数据时，处理装置对初始层的计算树与存储树进行剪枝，使存储树的数据同初始层中使用的有效数据匹配。在进行剪枝时，处理装置在初始层中修改加载树的操作，跳过加载无效的输入数据。在进行剪枝时，处理装置根据具体的算法和参数，判断初始层是否可以进行计算树的剪枝，如是，处理装置对计算树中的操作进行相应的修改，并且在存储树中对应修改输出的数据，以匹配初始层中的有效输入数据。如果无法进行计算树的剪枝，处理装置修改存储树中存储输出数据时的逻辑，逻辑为在每存储卷积核大小乘上通道数个的数据点，就跳过(步长参数减去卷积核大小)乘上通道数个数据点。

当接收层的卷积核窗口的宽度不是1时，处理装置修改存储树中的跳跃存数，其中如果下层的卷积核是1，则下层的步长参数减去卷积核大小是下层的卷积核大小的T倍，处理装置将T乘以接收层的步长参数，以作为接收层的新的步长参数，并将下层的步长参数缩小T倍。处理装置修改计算树中的叶子节点的主体操作，导入新的步长参数，并在存储树中修改存放至片外内存的数据大小，以匹配下层的有效数据大小。

在另一个方面，本发明揭露一种板卡，包括前述的集成电路装置。

本发明根据神经网络算子层中的输入输出数据点之间的细粒度数据依赖，将网络模型中对最终网络结果无用的中间数据进行省略，跳过相应的神经网络运算过程，在对应的算子执行树上实现剪枝优化，以减少运行时间，提升性能。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分其中：

图1是示出本发明实施例的板卡的结构图；

图2是示出本发明实施例的集成电路装置的结构图；

图3是示出本发明实施例的计算装置的内部结构示意图；

图4是示出本发明实施例的处理器核的内部结构示意图；

图5是示出本发明实施例的执行树的示意图；

图6是示出本发明实施例解析遍历执行树的示意图；以及

图7是示出神经网络模型片段实现剪枝优化的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

下面结合附图来详细描述本发明的具体实施方式。

图1示出本发明实施例的一种板卡10的结构示意图。如图1所示，板卡10包括芯片101，其是一种系统级芯片(System on Chip，SoC)，或称片上系统，集成有一个或多个组合处理装置，组合处理装置是一种人工智能运算单元，用以支持各类深度学习和机器学习算法，满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域，云端智能应用的一个显著特点是输入数据量大，对平台的存储能力和计算能力有很高的要求，此实施例的板卡10适用在云端智能应用，具有庞大的片外存储、片上存储和强大的计算能力。

芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景，对外接口装置102可以具有不同的接口形式，例如PCIe接口等。

板卡10还包括用于存储数据的存储器件104，其包括一个或多个存储单元105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对芯片101的状态进行调控。为此，在一个应用场景中，控制器件106可以包括单片机(Micro Controller Unit，MCU)。

图2是示出此实施例的芯片101中的组合处理装置的结构图。如图2中所示，组合处理装置20包括计算装置201、接口装置202、处理装置203和DRAM 204。

计算装置201配置成执行用户指定的操作，主要实现为单核智能处理器或者多核智能处理器，用以执行深度学习或机器学习的计算，其可以通过接口装置202与处理装置203进行交互，以共同完成用户指定的操作。

接口装置202用于在计算装置201与处理装置203间传输数据和控制指令。例如，计算装置201可以经由接口装置202从处理装置203中获取输入数据，写入计算装置201片上的存储装置。进一步，计算装置201可以经由接口装置202从处理装置203中获取控制指令，写入计算装置201片上的控制缓存中。替代地或可选地，接口装置202也可以读取计算装置201的存储装置中的数据并传输给处理装置203。

处理装置203作为通用的处理装置，执行包括但不限于数据搬运、对计算装置201的开启和/或停止等基本控制。根据实现方式的不同，处理装置203可以是中央处理器(central processing unit，计算类U)、图形处理器(graphics processing unit，GPU)或其他通用和/或专用处理器中的一种或多种类型的处理器，这些处理器包括但不限于数字信号处理器(digital signal processor，DSP)、专用集成电路(applicat输入输出类nspecific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以根据实际需要来确定。如前所述，仅就本发明的计算装置201而言，其可以视为具有单核结构或者同构多核结构。然而，当将计算装置201和处理装置203整合共同考虑时，二者视为形成异构多核结构。

DRAM 204用以存储待处理的数据，为DDR内存，大小通常为16G或更大，用于保存计算装置201和/或处理装置203的数据。

图3示出了计算装置201的内部结构示意图。计算装置201用以处理计算机视觉、语音、自然语言、数据挖掘等输入数据，图中的计算装置201采用多核分层结构设计，计算装置201作为一个片上系统，其包括多个集群(cluster)，每个集群又包括多个处理器核，换言之，计算装置201是以片上系统-集群-处理器核的层次所构成的。

以片上系统的层级来看，如图3所示，计算装置201包括外部存储控制器301、外设通信模块302、片上互联模块303、同步模块304以及多个集群305。

外部存储控制器301可以有多个，在图中示例性地展示2个，其用以响应处理器核发出的访问请求，访问外部存储设备，例如图2中的DRAM204，从而自片外读取数据或是将数据写入。外设通信模块302用以通过接口装置202接收来自处理装置203的控制信号，启动计算装置201执行任务。片上互联模块303将外部存储控制器301、外设通信模块302及多个集群305连接起来，用以在各个模块间传输数据和控制信号。同步模块304是一种全局同步屏障控制器(global barrier controller，GBC)，用以协调各集群的工作进度，确保信息的同步。多个集群305是计算装置201的计算核心，在图中示例性地展示4个，随着硬件的发展，本发明的计算装置201还可以包括8个、16个、64个、甚至更多的集群305。集群305用以高效地执行深度学习算法。

以集群的层级来看，如图3所示，每个集群305包括多个处理器核(IPU core)306及一个存储核(MEM core)307。

处理器核306在图中示例性地展示4个，本发明不限制处理器核306的数量。其内部架构如图4所示。每个处理器核306包括三大模块：控制模块41、运算模块42及存储模块43。

控制模块41用以协调并控制运算模块42和存储模块43的工作，以完成深度学习的任务，其包括取指单元(instruct输入输出类n fetch unit，IFU)411及指令译码单元(instruct输入输出类n decode unit，IDU)412。取指单元411用以获取来自处理装置203的指令，指令译码单元412则将获取的指令进行译码，并将译码结果作为控制信息发送给运算模块42和存储模块43。

运算模块42包括向量运算单元421及矩阵运算单元422。向量运算单元421用以执行向量运算，可支持向量乘、加、非线性变换等复杂运算；矩阵运算单元422负责深度学习算法的核心计算，即矩阵乘及卷积。

存储模块43用来存储或搬运相关数据，包括神经元存储单元(neuron RAM，NRAM)431、权值存储单元(weight RAM，WRAM)432、输入/输出直接内存访问模块(input/outputdirect memory access，输入输出类DMA)433、搬运直接内存访问模块(move directmemory access，MVDMA)434。NRAM 431用以存储供处理器核306计算的特征图及计算后的中间结果；WRAM 432则用以存储深度学习网络的权值；输入输出类DMA 433通过广播总线309控制NRAM 431/WRAM 432与DRAM 204的访存；MVDMA 434则用以控制NRAM 431/WRAM 432与SRAM 308的访存。

回到图3，存储核307主要用以存储和通信，即存储处理器核306间的共享数据或中间结果、以及执行集群305与DRAM 204之间的通信、集群305间彼此的通信、处理器核306间彼此的通信等。在其他实施例中，存储核307具有标量运算的能力，用以执行标量运算。

存储核307包括共享存储单元(SRAM)308、广播总线309、集群直接内存访问模块(cluster direct memory access，CDMA)310及全局直接内存访问模块(global directmemory access，GDMA)311。SRAM 308承担高性能数据中转站的角色，在同一个集群305内不同处理器核306之间所复用的数据不需要通过处理器核306各自向DRAM 204获得，而是经SRAM 308在处理器核306间中转，存储核307只需要将复用的数据从SRAM 308迅速分发给多个处理器核306即可，以提高核间通讯效率，亦大大减少片上片外的输入/输出访问。

广播总线309、CDMA 310及GDMA 311则分别用来执行处理器核306间的通信、集群305间的通信和集群305与DRAM 204的数据传输。以下将分别说明。

广播总线309用以完成集群305内各处理器核306间的高速通信，此实施例的广播总线309支持核间通信方式包括单播、多播与广播。单播是指点对点(即单一处理器核至单一处理器核)的数据传输，多播是将一份数据从SRAM 308传输到特定几个处理器核306的通信方式，而广播则是将一份数据从SRAM 308传输到所有处理器核306的通信方式，属于多播的一种特例。

CDMA 310用以控制在同一个计算装置201内不同集群305间的SRAM 308的访存。

GDMA 311与外部存储控制器301协同，用以控制集群305的SRAM308到DRAM 204的访存，或是将数据自DRAM 204读取至SRAM 308中。从前述可知，DRAM 204与NRAM 431或WRAM432间的通信可以经由2个渠道来实现。第一个渠道是通过输入输出类DAM 433直接联系DRAM 204与NRAM 431或WRAM 432；第二个渠道是先经由GDMA 311使得数据在DRAM 204与SRAM 308间传输，再经过MVDMA 434使得数据在SRAM 308与NRAM 431或WRAM 432间传输。虽然表面上看来第二个渠道需要更多的元件参与，数据流较长，但实际上在部分实施例中，第二个渠道的带宽远大于第一个渠道，因此DRAM 204与NRAM 431或WRAM 432间的通信通过第二个渠道可能更有效率。本发明的实施例可根据本身硬件条件选择数据传输渠道。

在其他实施例中，GDMA 311的功能和输入输出类DMA 433的功能可以整合在同一部件中。本发明为了方便描述，将GDMA 311和输入输出类DMA 433视为不同部件，对于本领域技术人员来说，只要其实现的功能以及达到的技术效果与本发明类似，即属于本发明的保护范围。进一步地，GDMA 311的功能、输入输出类DMA 433的功能、CDMA 310的功能、MVDMA434的功能亦可以由同一部件来实现。

此实施例适用的神经网络框架预定义了一系列的神经网络层或算子接口。开发者通过调用神经网络框架的应用编程接口(API)，设置每一层的层参数，链接数据与层之间的依赖关系，以搭建神经网络模型结构。在网络模型训练过程后，模型参数和权值数据被保存在结构化的模型文件中，储存在DRAM 204中。在部署运行时，处理装置203调用框架的API，加载训练好的网络模型，使用实际的输入数据，使得计算装置201执行网络模型的正向推理过程，得到网络的最终输出结果。而由于正向推理过程中模型结构和参数都是已知的，此实施例利用这些信息进行加速。

此实施例提出了一种树状的神经网络算子编程方法，称之为执行树。图5示出此实施例的执行树的示意图。执行树的节点是一个迭代的数据结构，由一个根节点501连接一个子树而成，子树可以包含任意多层及任意多个子节点，子节点又分为非叶子节点及叶子节点。非叶子节点位于子树的中间层，图5中示例性地显示2个非叶子节点502及503。叶子节点位于子树的最后一层，图5中示例性地显示2个叶子节点504及505。子树的层数与子节点数根据算子的需要而定，此实施例不做限制。

根节点和子节点的操作的执行逻辑相同，包括：初始操作、前处理操作、主体操作、后处理操作及结束操作。根节点和子节点还包括循环操作(未示出)，用以记录该节点需要重复执行的次数。

初始操作在同级的执行树中是最先执行的部分，并且只执行一次，不随循环重复执行，是属于一次性初始化指令，例如寄存器初始化、激活操作配置等指令。前处理操作在初始操作之后执行，根据循环操作重复执行至少一次，负责主体操作之前的前处理，例如在Scale算子中，短向量右操作数对应循环分段数据的取数操作等。主体操作在前处理操作之后执行，同样根据循环操作重复执行至少一次，负责算子主体循环的计算部分。如果是根节点或非叶子节点，主体操作只用于切割数据并分配任务给下一层的子节点；如果是叶子节点，其主体操作是执行树的运算核心部分，例如进行累积加法运算。后处理操作在主体操作之后，同样根据循环操作重复执行至少一次，负责运算之后的后处理操作，包括复用数据的搬移、寄存器偏移等操作。结束操作只执行一次，用以输出计算结果。

上述各操作的执行次数与时机，是处理装置203基于神经网络算子在计算装置201上的运行指令的循环分析而创建的，而非执行树的功能限制。当需要循环操作时，循环的部分为前处理操作、主体操作及后处理操作。

在此实施例中，神经网络算子的执行大体可以分为3个阶段：加载阶段、计算阶段和存储阶段，故处理装置203将神经网络算子的执行树划分为加载、计算、存储三种树，每个算子的执行树都由加载、计算、存储树的根节点及其子树构成，即一个算子所有的执行树均属于这3个树中其中一种，每种树都拥有图5的结构。

在运行神经网络模型时，一个算子的3个执行树就能实现神经网络算子在计算装置201上运行所需的所有指令。首先，计算装置201执行加载树的叶子节点的相应执行顺序的操作的所有指令，再执行计算树的叶子节点，最后执行存储树的叶子节点，循环往复，直至所有的节点均执行完毕。

更详细来说，在编译阶段，处理装置203在解析遍历一个执行树时，是按照前序优先遍历的顺序，先执行根节点的初始、前处理操作，再遍历其子树的主体操作里的所有节点，最后执行根节点的后处理、结束操作。其中前处理、主体和后处理操作在循环时重复执行。

为了实现循环操作，当需要重复执行时，在需要重复执行的节点的后处理操作之后插入同步指令。计算装置201在运行时，如果接收到同步指令，便会回到该节点的前处理操作，再次执行前处理操作、主体操作与后处理操作，直到循环操作的循环次数被满足，才会执行该节点的结束操作。

图6示出此实施例解析遍历执行树的示意图。此简化的执行树包括一个根节点601、第一叶子节点602及第二叶子节点603。假设根节点601的循环操作记录根节点601的循环次数为3次，第一叶子节点602的循环操作记录第一叶子节点602的循环次数为5次，第二叶子节点603的循环操作记录第二叶子节点603的循环次数为1次。处理装置203在遍历此执行树时，先执行根节点601的初始和前处理操作，接着执行主体操作，根据其子树的前后链接顺序，接着执行第一叶子节点602的初始、前处理、主体、后处理操作，此时接收到同步指令604，同步指令604的循环信息记录需要重复执行5次。由于第一叶子节点602只执行了一次，故重复执行第一叶子节点602的前处理、主体、后处理操作，直到循环了5次，最后执行第一叶子节点602的结束操作。至此第一叶子节点602的子树的所有操作全部遍历完毕。

接着处理装置203遍历执行第二叶子节点603的子树。由于第二叶子节点603只需要循环一次，故在第二叶子节点603中不需要插入同步指令，直接执行初始、前处理、主体、后处理、结束操作，便回到根节点601。

继续遍历根节点601，即执行根节点601的后处理操作。由于根节点601需要被执行3次，因此根节点601的后处理操作之后设有同步指令605，同步指令605的循环信息记录需要重复执行3次。此时处理装置203回到根节点601的前处理操作重复执行，接着是如前所述其所有子树的全部操作流程，再执行根节点601的后处理操作，直到循环了3次，最后执行根节点601的结束操作，以完成根节点601树中所有操作的执行。

图6的例子是作为单个执行树的遍历顺序而言，由上述可知，计算装置201在计算算子时，是按照执行树的节点基于加载→计算→存储→加载→计算→存储的链状循环重复遍历完成。

处理装置203在编译执行树时，是基于神经网络算子的具体算法来分析，得出计算的循环层级，构建相应的执行树层级，链接子树关系。再由每次输入、输出、常数等数据块在片上资源(主要是NRAM 431内存空间)的占用比例或实际大小，得出每次计算循环内最大输入(或输出)的数据量，由具体计算循环层级的输入数据量除以单次循环的最大输入数据量，得出数据切片的循环层级，以链接子树关系。在各子树中，按照实际循环时的数据量，在合适的操作中，进行内存分配与释放。最后在各子树的合适的操作中，填充相应的加载片外数据、搬移复用数据、计算、存储输出数据等指令，以完成算子编译工作。

在神经网络算子中，有些算子需要使用步长来取样计算，所谓步长就是滤波器在图像上扫描时需要滑动的格数，例如步长参数为2表示每滑动2格取样一次。卷积和池化都属于需要滑动窗口在输入数据的H、W维度上进行滑动计算的算子，当H、W方向的步长参数大于卷积核对应维度的大小时，便会存在部分输入数据没有被计算使用，这些输入数据是无效的输入数据。

另外，由于神经网络模型是由神经网络层搭建而成的，不同的层之间相互链接，前层的输出数据作为后层的输入数据，依次进行计算。神经网络层之间有数据依赖关系，每个中间层的输出数据点都与下一层的输入数据点存在着数据依赖关系。本发明的实施例根据神经网络算子层中的输入输出数据点之间的细粒度数据依赖，将网络模型中对最终网络结果无用的中间数据进行省略，跳过相应的神经网络运算过程，在对应的算子执行树上实现剪枝优化，以减少运行时间，提升性能。

图7示出神经网络模型片段实现剪枝优化的示意图。此神经网络模型片段包括2个卷积层：第一卷积层(上层)与第二卷积层(下层)。第一卷积层的输入数据为数据701，第一卷积层的输出数据为数据702，第一卷积层的步长704为2，第一卷积层的卷积核大小705为1，数据702亦为第二卷积层的输入数据，第二卷积层的输出数据为数据703。由于第一卷积层的步长大于卷积核大小的卷积层，势必存在一些无效的输入数据，此实施例从第一卷积层的下一层(第二卷积层)的输出数据703往前回推数据702中的有效输入数据，在图中以黑色表示之。再以数据702中的有效数据作为输出数据，往前回推数据701中的有效输入数据，便可得到数据701与数据702中无效的数据，在图中以白色表示之。处理装置203将无效的数据删除使其不参与计算。

更详细来说，处理装置203从神经网络模型的全网络输出数据节点，逆向沿着数据流的方向识别步长大于卷积核大小的卷积层或池化层，该层被称为剪枝优化的初始层。在神经网络模型中，由于滑动窗口是在H、W方向上进行滑动的，所以无效数据点一定是由某些H、W的位置上。

处理装置203进一步判断初始层的下一层(接收层)是否为卷积或池化类算子，且步长和卷积核大小的参数相同。

如接收层的步长和卷积核大小的参数相同，表示对于接收层的输出数据都无效的输入数据点是相同的，处理装置203去除接收层及初始层中无效的输入数据，只加载有效的输入数据。需注意的是，在神经网络模型具有分支的情况下，下一层可能为多层，当下一层可能为多层时，处理装置203会判断每一层的接收层均需为卷积或池化类算子，且步长和卷积核大小的参数相同。

处理装置203对接收层链接的无效输入数据的产生层(即初始层)的计算树与存储树进行剪枝，使接收层的存储树的数据同初始层中使用的有效数据匹配，这中被剪枝的层被称为“剪枝层”。不同类型的剪枝层根据具体的算法和层内细粒度的数据点依赖关系来执行对应的剪枝方法。

在进行剪枝时，处理装置203首先需要在初始层中修改执行树中的加载树的操作，跳过加载无效的输入数据。实际上，由于片外输入数据块是由前一层的输出数据得来，对剪枝层中执行计算、存储树的剪枝就是为了匹配初始层中的有效输入数据，所以在初始层中，只需修改加载输入数据块的大小，修改计算时使用的步长参数等于卷积核参数的大小。其余的数据匹配的剪枝部分在剪枝层中完成。

对剪枝层剪枝时，处理装置203首先根据具体的算法和参数，判断初始层是否可以进行计算树的剪枝。如果可以进行计算树的剪枝，则对计算树中的操作进行相应的修改，并且在存储树中对应修改输出的数据，以匹配初始层中的有效输入数据。接着在剪枝层中，按照细粒度的数据依赖关系，标记新的无效输入数据，向前迭代。如果无法进行计算树的剪枝，处理装置203则修改存储树中向DRAM 204存储输出数据时的逻辑，在H、W方向上跳跃存数，即每存储卷积核大小乘上通道数个的数据点，就跳过(步长参数减去卷积核大小)乘上通道数个数据点。

如果剪枝层是卷积或池化类的运算，则输出数据点对输入数据点的依赖关系与本层的步长和卷积核的参数大小相关。对下层计算无效的本层输出数据在H、W上的分布位置是根据下层的步长参数减去卷积核大小的大小计算而来。如果下层的卷积核窗口的宽度(k_h或k_w)不是1，那么当本层跳过无效的输出数据点的运算时，需要切分本层的计算指令，进行跨越取数和计算，此举将会造成指令操作的张量、向量数据碎片化，导致无法高效地利用硬件流水，降低性能。在此实施例中，处理装置203按本层无法进行计算剪枝处理，只修改存储树中存数的逻辑，改为跳跃存数，以匹配下层的输入。

如果下层的卷积核是1，则下层的步长参数减去卷积核大小是卷积核大小的整数倍(记为T)，则处理装置203将T乘以本层的步长参数，以作为本层的新的步长参数，再将下层的步长参数缩小T倍，也就是等于卷积核大小，使得下层计算的输入数据全部为有效数据。在剪枝层的执行树中，处理装置203修改计算树中的叶子节点的主体操作，导入新的步长参数，进行相应的计算。在存储树中，处理装置203修改存放至DRAM 204的数据大小，以匹配下层的有效数据大小。

如果剪枝层是全连接层，处理装置203对DRAM 204的权值摆放进行修改，删去无效输出数据点相连的所有权值数据，修改新的全连接的输出点个数的参数，减去相应的无效点个数，以修改本层执行树对输出数据的循环次数适应新的输出形状大小。由于输入数据是全连接的，所以被剪枝层不存在无效的输入数据，也无法继续向前层迭代剪枝。

如果剪枝层是Element wise类或Segment wise类算子，处理装置203根据细粒度的层内点对点的数据依赖关系，将无效的输出数据点对应位置的输入数据点同样标记为无效数据。同时，处理装置203将加载树加载输入数据的操作改为加载删去无效数据点之后的循环操作，计算树、存储树进行同构的修改，适应新数据大小的循环。由于剪枝层中对应的输入数据也包含无效数据点，所以可以向前继续迭代剪枝。

如果剪枝层是Dimension类或Normalization类的算子，由于输出数据点对某维度的所有输入数据都有数据依赖，故所有的输入数据点都是有效的。在执行树中，处理装置203跳过对应无效输出数据点的计算操作和存储操作，但无法跳过加载操作，故不修改加载执行树，也不会继续向前层迭代剪枝。

在网络模型中，从网络的最终输出向前逆向数据流的方向，根据网络层之间的数据依赖，进行可剪枝层的判断和剪枝层的迭代剪枝，修改相应算子中的执行树，修改加载、存储数据的总大小，达到层间的数据规模匹配；修改计算执行树中的计算部分的指令，适应剪枝后的计算；以及对执行树的循环次数进行同构的改变，匹配剪枝后的数据规模。剪枝直到所有的神经网络层都被遍历判断过，达到全网络的输入数据块为止，完成神经网络算子执行树的剪枝优化。

剪枝完成后，计算装置201便可以利用去除初始层中无效的输入数据的神经网络模型来处理计算机视觉、语音、自然语言、数据挖掘等任务。

根据不同的应用场景，本发明的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本发明的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本发明的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本发明方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。

需要说明的是，为了简明的目的，本发明将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本发明的方案并不受所描述的动作的顺序限制。因此，依据本发明的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本发明所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本发明某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本发明对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本发明某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。

在具体实现方面，基于本发明的公开和教导，本领域技术人员可以理解本发明所公开的若干实施例也可以通过此实施例未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，此实施例在考虑了逻辑功能的基础上对其进行拆分，而实际实现时也可以有另外的拆分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。

在本发明中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本发明实施例所述方案的目的。另外，在一些场景中，本发明实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。

在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，此实施例所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如中央处理器、GPU、FPGA、DSP和ASIC等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(Resistive Random Access Memory，RRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、增强动态随机存取存储器(Enhanced Dynamic Random Access Memory，EDRAM)、高带宽存储器(High Bandwidth Memory，HBM)、混合存储器立方体(Hybrid Memory Cube，HMC)、ROM和RAM等。

以上对本发明实施例进行了详细介绍，此实施例中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种在神经网络模型编译中执行剪枝优化的集成电路装置，包括：

处理装置，用以：

从所述神经网络模型的全网络输出数据节点，逆向沿着数据流的方向识别步长大于卷积核大小的初始层；

判断接收层是否为卷积或池化类算子，且步长和卷积核大小的参数相同，其中所述接收层为所述初始层的下一层；

如是，修改相应算子中的执行树，以去除所述接收层及初始层中无效的输入数据，其中所述执行树是树状的神经网络算子编程方法；以及

计算装置，用以运行去除无效输入数据后的神经网络模型，来处理计算机视觉的任务、语音的任务、或者自然语言的任务；

其中当去除无效输入数据时，所述处理装置对所述初始层的计算树与存储树进行剪枝，使所述存储树的数据同所述初始层中使用的有效数据匹配；

其中在进行剪枝时，所述处理装置在所述初始层中修改加载树的操作，跳过加载无效的输入数据。

2.根据权利要求1所述的集成电路装置，其中所述初始层为卷积层及池化层其中之一。

3.根据权利要求1所述的集成电路装置，其中在所述神经网络模型具有分支的情况下，如所述接收层为多层，所述处理装置判断每一层接收层是否皆为卷积或池化类算子，且步长和卷积核大小的参数相同。

4.根据权利要求1所述的集成电路装置，其中在进行剪枝时，所述处理装置根据具体的算法和参数，判断所述初始层是否可以进行所述计算树的剪枝，如是，所述处理装置对所述计算树中的操作进行相应的修改，并且在所述存储树中对应修改输出的数据，以匹配所述初始层中的有效输入数据。

5.根据权利要求4所述的集成电路装置，其中如果无法进行所述计算树的剪枝，所述处理装置修改所述存储树中存储输出数据时的逻辑，所述逻辑为在每存储卷积核大小乘上通道数个的数据点，就跳过(步长参数－卷积核大小)×通道数个数据点。

6.根据权利要求1所述的集成电路装置，其中当所述接收层的卷积核窗口的宽度不是1时，所述处理装置修改所述存储树中的跳跃存数，其中如果下层的卷积核是1，则所述下层的步长参数减去卷积核大小是所述下层的卷积核大小的T倍，所述处理装置将T乘以所述接收层的步长参数，以作为所述接收层的新的步长参数，并将所述下层的步长参数缩小T倍。

7.根据权利要求6所述的集成电路装置，其中所述处理装置修改所述计算树中的叶子节点的主体操作，导入所述新的步长参数，并在存储树中修改存放至片外内存的数据大小，以匹配所述下层的有效数据大小。

8.一种板卡，包括根据权利要求1至7任一项所述的集成电路装置。