CN108520300A

CN108520300A - 一种深度学习网络的实现方法和装置

Info

Publication number: CN108520300A
Application number: CN201810311861.XA
Authority: CN
Inventors: 景璐
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-09-11

Abstract

本发明公开了一种深度学习网络的实现方法和装置，该方法包括：获取预设的深度学习网络模型；在一预设计算层中处理深度学习网络模型的所有计算层的计算。本发明提供了一种深度学习网络的实现方法和装置，操作简单，计算时间减少。

Description

一种深度学习网络的实现方法和装置

技术领域

本发明涉及人工智能和高性能计算领域，尤指一种深度学习网络的实现方法和装置。

背景技术

深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习应用分为模型训练和应用推理两个阶段，其中，模型训练阶段是通过对大量的计算资源和训练数据不断训练后，得到理想的网络模型。应用推理阶段就是对经过模型训练阶段得到的网络模型进行一次前向运算，从而得到最终分类准确率。

为了提高计算精度，深度学习网络的深度越来越深，同时计算量也越来越大，对推理阶段的实时性要求越来越高，其中实时性要求指的是在短的时间内提供较多的计算图片。然而，传统的计算设备CPU已经很难满足推理阶段的实时性要求。

发明内容

为了解决上述技术问题，本发明提供了一种深度学习网络的实现方法和装置，操作简单，计算时间减少。

为了达到本发明目的，第一方面，本发明提供了一种深度学习网络的实现方法，包括：

获取预设的深度学习网络模型；

在一预设计算层中处理所述深度学习网络模型的所有计算层的计算。

第二方面，本发明提供一种深度学习网络的实现装置，包括：

获取模块，用于获取预设的深度学习网络模型；

处理模块，用于在一预设计算层中处理所述深度学习网络模型的所有计算层的计算。

第三方面，本发明提供了一种深度学习网络的实现装置，包括存储器和处理器，存储器用于存储执行指令；处理器调用所述执行指令，用于执行如第一方面实施例所述的深度学习网络的实现方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现第一方面实施例所述的方法的步骤。

本发明实施例提供了一种深度学习网络的实现方法和装置，在一预设计算层中处理所述深度学习网络模型的所有计算层的计算，提供了一种深度学习网络的通用实现架构，只需调用一次相关函数即可实现所有计算层的计算，避免了每一个计算层的计算都需要单独调用一次相关函数，不同计算层需要调用不同相关函数的缺陷，操作简单，计算时间减少，在短的时间内可以提供较多的计算图片，提高了效率。可使深度学习网络高效、方便的配置到CPU、GPU、FPGA等高性能计算设备，用户不需要了解深度学习网络的算法本身，也不需要对算法进行优化，就可以在产品中方便的使用，既可以推进深度学习算法在实际产品中的使用。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的深度学习网络的实现方法的流程图；

图2为本发明实施例提供的预设计算层的结构示意图；

图3为本发明实施例提供的卷积神经网络的实现架构图；

图4为本发明实施例提供的卷积计算向量化处理的示意图；

图5为本发明实施例一提供的深度学习网络的实现装置的结构示意图；

图6为本发明实施例二提供的深度学习网络的实现装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请对常用的线上推理设备，如X86、ARM、GPU、FPGA，对目前主要的深度学习网络模型卷积神经网络进行了实现和优化，以方便深度学习网络在实际产品中的应用。本申请可应用到人工智能相关的各个应用领域，如服务器设备和嵌入式设备，图像识别、语音识别、人机交互等领域。

本申请主要提供一种深度学习网络的通用实现架构，该架构设计了包含所有基本层计算的预设计算层，该预设计算层为一混合计算层，在该预设计算层可实现卷积神经网络常用的基本计算层的所有计算。同时，该架构可支持卷积神经网络和循环神经网络等不同深度学习网络，对于不同深度学习网络，只需更改核心代码，而不需要修改目前的架构；该架构可支持TensorFlow、Caffe、MxNet等流行开源架构的模型输入，支持浮点模型计算和8位量化模型计算，支持CPU(X86和ARM)、GPU、FPGA三种不同架构的计算设备。

图1为本发明实施例提供的深度学习网络的实现方法的流程图，如图1所示，本发明实施例提供的深度学习网络的实现方法，包括：

S101：获取预设的深度学习网络模型。

具体的，本发明实施例以基于FPGA平台为例，即本发明实施例的执行主体均为FPGA。本发明实施例预设的深度学习网络模型是通过模型训练阶段得到的，深度学习网络模型可以是卷积神经网络和神经循环网络等网络模型。本发明实施例以卷积神经网络模型(Convolutional Neural Network，简称CNN)为例进行阐述。卷积神经网络的实现包括模型训练和和应用推理两个阶段，本发明实施例适用于应用推理阶段。

需要说明的是，在获取预设的深度学习网络模型之前，需要将模型训练阶段获得的预设的深度网络学习模型解析为应用推理阶段支持的模型输入格式。本发明实施例对于不同的开源架构如TensorFlow、Caffe等的模型输入，只需要调用不同的c++或Python接口即可实现模型的解析，进而进行模型的计算。TensorFlow和Caffe的模型解析都是使用Proto Buffer实现。本发明实施例也可以扩展到目前没有支持的模型输入格式，扩展时只需要在本发明实施例提供的卷积神经网络的实现架构基础上实现相应的接口就可，不需要修改相关内容(代码)，卷积神经网络的实现架构详见下述实施例的描述，此处不进行赘述。

S102：在一预设计算层中处理深度学习网络模型的所有计算层的计算。

具体的，为了FPGA的高效计算，本发明实施例设计了一预设计算层，该预设计算层为一包含所有计算层计算的混合计算层。本发明实施例将深度学习网络模型的所有计算层的计算放在一预设计算层中计算，只需调用一次相关函数即可实现所有计算层的计算，避免了每一个计算层的计算都需要单独调用一次相关函数，不同计算层需要调用不同相关函数的缺陷，操作简单，减少计算时间，提高效率。用户不需要了解深度学习网络的算法本身，也不需要对算法进行优化，就可以在产品中方便的使用，即可以推进深度学习算法在实际产品中的使用。

需要说明的是，本发明实施例中深度学习网络的计算单元中的一个计算即为一个计算层。比如，一个卷积计算为一个计算层，一个池化计算为一个计算层。

以卷积神经网络为例，卷积神经网络模型常用的基本计算层如卷积层、池化层、BatchNorm层、激活层、EltWise层、局部响应归一化层、DropOut层。图2为本发明实施例提供的预设计算层的结构示意图，如图2所示，将卷积神经网络的卷积层(Convolution)、激活层(ReLU)和池化层(Pool)放在一预设计算层，在该预设计算层完成卷积层(Convolution)、激活层(ReLU)和池化层(Pool)的计算。其中，卷积层用来对待处理的图像进行卷积计算以实现特征提取，激活层用来引入非线性因素，对卷积层提取的特征进行拟合，池化层用来对激活函数处理后的特征图进行压缩。

可选的，并行处理每一预设计算层中所有计算层的计算，不同计算层之间通过通道(Channel)进行通信。具体的，每一计算层计算时会输出多个数据，为了避免现有技术中在一个计算层输出所有数据时，才进行下一个计算层的计算，比较耗时的缺陷，本发明实施例在预设计算层中，将所有计算层的计算并行处理。如图2所示，预设计算层中的卷积层(Convolution)、激活层(ReLU)和池化层(Pool)并行计算，减少计算时间，提高效率。其中，本发明实施例中并行计算(处理)指的是在一个计算层输出一组数据时，即开始下一个计算层的计算，比如，在卷积层输出一组数据时，激活层即开始计算。

可选的，深度学习网络模型包括多个计算单元，一个计算单元包括多个计算层；在一预设计算层中处理深度学习网络模型的所有计算层的计算，包括：设置多个预设计算层，在每一个预设计算层中处理一个计算单元中的所有计算层的计算，将多个预设计算层进行串行计算，以及将各个预设计算层之间通过全局存储器进行数据交互。将深度学习网络模型的所有计算层的计算在预设计算层中进行串行计算，以及各个计算层之间通过全局存储器进行数据交互。

其中，深度学习网络模型包括多个计算单元，一个计算单元包括多个计算，每一个计算为一个计算层。

具体的，图3为本发明实施例提供的卷积神经网络的实现架构图，如图3所示，对于多个预设计算层，如预设计算层1、预设计算层2…预设计算层n，在FPGA上串行实现，各个预设计算层之间通过全局存储器进行数据交互。其中，本发明实施例卷积神经网络架构基于Intel的Software Development Kit(SDK)开发环境和OpenCL语言实现，硬件平台安装Intel SDK开发环境后，编译即可运行于不同的Intel FPGA平台。

本发明实施例提供的深度学习网络的实现方法，在一预设计算层中处理所述深度学习网络模型的所有计算层的计算，提供了一种卷积神经网络的实现架构，只需调用一次相关函数即可实现所有计算层的计算，避免了每一个计算层的计算都需要单独调用一次相关函数，不同计算层需要调用不同相关函数的缺陷，操作简单，减少计算时间，提高效率。可使深度学习网络高效、方便的配置到CPU、GPU、FPGA等高性能计算设备，用户不需要了解深度学习网络的算法本身，也不需要对算法进行优化，就可以在产品中方便的使用，既可以推进深度学习算法在实际产品中的使用。

进一步地，在上述实施例中，在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，向量化处理该预设计算层中卷积计算的输入特征图和输出特征图。

具体的，将每一预设计算层中卷积计算的输入特征图和输出特征图均进行向量化处理。图4为本发明实施例提供的卷积计算向量化处理的示意图，如图4所示，每一层计算的多个输入特征图、输出特征图都进行向量化处理，分别设为VEC_SIZE、LANE_SIZE，即VEC_SIZE个输入特征图为一组进行运算，输出一组即LANE_SIZE个输出特征图。

进一步地，在上述实施例中，向量化处理后的输出特征图为多组；在一预设计算层中处理深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的卷积计算，并行处理每组输出特征图中的多个卷积计算。

具体的，将深度学习网络模型的所有计算层的计算放在一预设计算层中计算时，以流水线的方式依次处理向量化处理后的每组输出特征图的卷积计算，每组输出特征图中的多个卷积计算并行处理。本发明实施例卷积和激活操作使用单线程OpenCL核函数实现，OpenCL核函数指的是采用OpenCL语言编写的单独的核函数，一个OpenCL核函数可以独立的执行一个功能，核函数中的代码可以并行运行。一个OpenCL核函数有多个并行的线程，一个线程处理一组输出特征图。从全局存储器的输出通道中读取数据，以流水线的方式依次处理每组输出特征图的每个卷积操作，其中，流水线的方式指的是以预设间隔，来一组输出特征图处理一组输出特征图，每组内的单个卷积操作并行进行。每个时钟周期可实现一次卷积操作。输出结果写入通道中。

和/或；

在一预设计算层中处理深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的池化计算，并行处理每组输出特征图中的多个池化计算。

具体的，将深度学习网络模型的所有计算层的计算放在一预设计算层中计算时，以流水线的方式依次处理向量化处理后的每组输出特征图的池化计算，每组输出特征图中的多个池化计算并行处理。池化操作使用单线程OpenCL核函数实现。从激活层的输出通道中读取数据，以流水线的方式依次处理每组输出特征图的池化操作，其中，流水线的方式指的是以预设间隔，来一组输出特征图处理一组输出特征图，每组内的单个池化操作并行进行。每个时钟周期可实现一次池化操作。输出结果写入通道中。

进一步地，在上述实施例中，向量化处理后的输入特征图和所述向量化处理后的输出特征图均为多组；

在一预设计算层中处理深度学习网络模型的所有计算层的计算时，采用多个线程块从全局存储器中并行读取向量化处理后的多组输入特征图的卷积计算的输入数据；其中，每个线程块包括多个线程，每组输入特征图包括多个卷积计算的输入数据，一个线程块读取一组输入特征图的输入数据，每个线程块中的一个线程读取每组输入特征图中一个卷积计算的输入数据。

具体的，全局数据读取使用多线程OpenCL核函数实现，即从全局存储器读取需要处理的数据。每个线程块中的多个线程并行读取每个卷积计算(如3*3卷积计算)的数据；多个线程块并行读取多组输入特征图的多个卷积操作的数据。读取的数据写入通道中。

或者；

在一预设计算层中处理深度学习网络模型的所有计算层的计算时，采用多个线程块并行向全局存储器写入向量化处理后的多组输出特征图的卷积计算的输出数据；其中，每个线程块包括多个线程，每组输出特征图包括多个卷积计算的输出数据，一个线程块写入一组输入特征图的输出数据，每个线程块中的一个线程写入每组输出特征图中一个卷积计算的输出数据。

具体的，全局数据写入使用多线程OpenCL核函数实现，即向全局存储器写入处理完成的数据。每个线程块中的多个线程并行从池化层的输出通道中读取数据，并写入每组输出特征图的数据。多个线程块并行写入多组输出特征图的数据。每组特征图的数据以循环展开的方式并行写入全局存储器，其中，循环展开指的是将需要多个循环函数处理的每组特征图的数据放在一个循环函数中处理。

进一步地，在上述实施例中，基于上述卷积神经网络的实现架构，还可实现浮点模型计算和量化模型计算，用户可根据计算需求、计算设备选择不同的计算方式。在调用接口函数时传递不用的参数即可实现不同数据类型计算之间的切换。目前支持8位量化模型计算，可以扩展到任意位的量化模型计算，而不必修改已有的代码。

图5为本发明实施例一提供的深度学习网络的实现装置的结构示意图，如图5所示，本发明实施例提供的深度学习网络的实现装置，包括：获取模块51和处理模块52。

获取模块51，用于获取预设的深度学习网络模型；

处理模块52，用于在一预设计算层中处理所述深度学习网络模型的所有计算层的计算。

本发明实施例提供的深度学习网络的实现装置用于执行图1所示方法实施例的技术方案，其实现原理和实现效果类似，此处不再赘述。

进一步地，在上述实施例中，所述深度学习网络模型包括多个计算单元，一个计算单元包括多个计算层；

所述处理模块52在一预设计算层中处理所述深度学习网络模型的所有计算层的计算，包括：

设置多个预设计算层，在每一个预设计算层中处理一个计算单元中的所有计算层的计算，将多个预设计算层进行串行计算，以及将各个预设计算层之间通过全局存储器进行数据交互。

进一步地，在上述实施例中，所述处理模块52在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，向量化处理该预设计算层中卷积计算的输入特征图和输出特征图。

进一步地，在上述实施例中，所述向量化处理后的输出特征图为多组；

所述处理模块52在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的卷积计算，并行处理每组输出特征图中的多个卷积计算；

或者；

所述处理模块52在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的池化计算，并行处理每组输出特征图中的多个池化计算。

进一步地，在上述实施例中，所述向量化处理后的输入特征图和所述向量化处理后的输出特征图均为多组；

所述处理模块52在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块从全局存储器中并行读取向量化处理后的多组输入特征图的卷积计算的输入数据；其中，每个线程块包括多个线程，每组输入特征图包括多个卷积计算的输入数据，一个线程块读取一组输入特征图的输入数据，每个线程块中的一个线程读取每组输入特征图中一个卷积计算的输入数据；

或者；

所述处理模块52在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块并行向全局存储器写入向量化处理后的多组输出特征图的卷积计算的输出数据；其中，每个线程块包括多个线程，每组输出特征图包括多个卷积计算的输出数据，一个线程块写入一组输入特征图的输出数据，每个线程块中的一个线程写入每组输出特征图中一个卷积计算的输出数据。

图6为本发明实施例二提供的深度学习网络的实现装置的结构示意图，如图6所示，本发明实施例提供的深度学习网络的实现装置，包括：存储器61和处理器62。

存储器61用于存储执行指令，处理器62可以是一个中央处理器(CentralProcessing Unit，简称CPU)，或者是特定集成电路(Application Specific IntegratedCircuit，简称ASIC)，或者完成实施本发明实施例的一个或多个集成电路。当主控设备运行时，处理器62与存储器61之间通信，处理器62调用执行指令，用于执行以下操作：

获取预设的深度学习网络模型；

进一步地，所述深度学习网络模型包括多个计算单元，一个计算单元包括多个计算层；

处理器62在一预设计算层中处理所述深度学习网络模型的所有计算层的计算，包括：

进一步地，处理器62在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，向量化处理该预设计算层中卷积计算的输入特征图和输出特征图。

进一步地，所述向量化处理后的输出特征图为多组；

处理器62在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的卷积计算，并行处理每组输出特征图中的多个卷积计算；

或者；

所述处理模块在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的池化计算，并行处理每组输出特征图中的多个池化计算。

进一步地，所述向量化处理后的输入特征图和所述向量化处理后的输出特征图均为多组；

处理器62在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块从全局存储器中并行读取向量化处理后的多组输入特征图的卷积计算的输入数据；其中，每个线程块包括多个线程，每组输入特征图包括多个卷积计算的输入数据，一个线程块读取一组输入特征图的输入数据，每个线程块中的一个线程读取每组输入特征图中一个卷积计算的输入数据；

或者；

处理器62在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块并行向全局存储器写入向量化处理后的多组输出特征图的卷积计算的输出数据；其中，每个线程块包括多个线程，每组输出特征图包括多个卷积计算的输出数据，一个线程块写入一组输入特征图的输出数据，每个线程块中的一个线程写入每组输出特征图中一个卷积计算的输出数据。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现上述任一实施例所述的深度学习网络的实现方法的步骤。

进一步地，在上述实施例中，基于上述卷积神经网络的实现架构，可适用于不同计算设备支持的实现。此架构支持X86、ARM、GPU、FPGA的计算，对不同设备的代码实现通过预编译的方式实现。在编译代码时，不同的编译指令可以实现针对不同设备代码的编译。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种深度学习网络的实现方法，包括：

获取预设的深度学习网络模型；

2.根据权利要求1所述的方法，其特征在于，所述深度学习网络模型包括多个计算单元，一个计算单元包括多个计算层；

所述在一预设计算层中处理所述深度学习网络模型的所有计算层的计算，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，向量化处理该预设计算层中卷积计算的输入特征图和输出特征图。

4.根据权利要求3所述的方法，其特征在于，所述向量化处理后的输出特征图为多组；

所述在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的卷积计算，并行处理每组输出特征图中的多个卷积计算；

或者；

所述在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的池化计算，并行处理每组输出特征图中的多个池化计算。

5.根据权利要求3所述的方法，其特征在于，所述向量化处理后的输入特征图和所述向量化处理后的输出特征图均为多组；

所述在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块从全局存储器中并行读取向量化处理后的多组输入特征图的卷积计算的输入数据；其中，每个线程块包括多个线程，每组输入特征图包括多个卷积计算的输入数据，一个线程块读取一组输入特征图的输入数据，每个线程块中的一个线程读取每组输入特征图中一个卷积计算的输入数据；

或者；

所述在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块并行向全局存储器写入向量化处理后的多组输出特征图的卷积计算的输出数据；其中，每个线程块包括多个线程，每组输出特征图包括多个卷积计算的输出数据，一个线程块写入一组输入特征图的输出数据，每个线程块中的一个线程写入每组输出特征图中一个卷积计算的输出数据。

6.一种深度学习网络的实现装置，其特征在于，包括：

获取模块，用于获取预设的深度学习网络模型；

7.根据权利要求6所述的装置，其特征在于，所述深度学习网络模型包括多个计算单元，一个计算单元包括多个计算层；

所述处理模块在一预设计算层中处理所述深度学习网络模型的所有计算层的计算，包括：

8.根据权利要求6或7所述的装置，其特征在于，所述处理模块在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，向量化处理该预设计算层中卷积计算的输入特征图和输出特征图。

9.根据权利要求8所述的装置，其特征在于，所述向量化处理后的输出特征图为多组；

所述处理模块在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用流水线的方式依次处理向量化处理后的每组输出特征图的卷积计算，并行处理每组输出特征图中的多个卷积计算；

或者；

10.根据权利要求8所述的装置，其特征在于，所述向量化处理后的输入特征图和所述向量化处理后的输出特征图均为多组；

所述处理模块在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块从全局存储器中并行读取向量化处理后的多组输入特征图的卷积计算的输入数据；其中，每个线程块包括多个线程，每组输入特征图包括多个卷积计算的输入数据，一个线程块读取一组输入特征图的输入数据，每个线程块中的一个线程读取每组输入特征图中一个卷积计算的输入数据；

或者；

所述处理模块在一预设计算层中处理所述深度学习网络模型的所有计算层的计算时，采用多个线程块并行向全局存储器写入向量化处理后的多组输出特征图的卷积计算的输出数据；其中，每个线程块包括多个线程，每组输出特征图包括多个卷积计算的输出数据，一个线程块写入一组输入特征图的输出数据，每个线程块中的一个线程写入每组输出特征图中一个卷积计算的输出数据。

11.一种深度学习网络的实现装置，其特征在于，包括存储器和处理器，存储器用于存储执行指令；处理器调用所述执行指令，用于执行如权利要求1-5任一项所述的深度学习网络的实现方法。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1-5任一项所述的方法的步骤。