CN109767000A

CN109767000A - 基于Winograd算法的神经网络卷积方法及装置

Info

Publication number: CN109767000A
Application number: CN201910041019.3A
Authority: CN
Inventors: 戴宏凯; 陈志杰; 龚秋棠; 傅松林; 张伟
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-17
Anticipated expiration: 2039-01-16
Also published as: CN109767000B

Abstract

本申请提供基于Winograd算法的神经网络卷积方法及装置，所述方法包括：获取待加速神经网络卷积的卷积核及图像块；将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵；根据目标矩阵及所述卷积核，得到第一变换矩阵；根据Winograd算法中第二矩阵及所述图像块，计算得到第二变换矩阵；根据Winograd算法中第三矩阵与所述第一、第二变换矩阵，得到卷积矩阵；采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。采用本申请提供的基于Winograd算法的神经网络卷积方法进行卷积计算，能够实现算法的定点加速，提高运算速度和精准度。

Description

基于Winograd算法的神经网络卷积方法及装置

技术领域

本申请涉及神经网络领域，具体而言，涉及基于Winograd算法的神经网络卷积方法及装置。

背景技术

在现代人工智能(AI)领域中，卷积神经网络(Convolution Neutral Netwo rks，简称CNN)是研究图像识别和机器视觉的最主要技术。而多数情况下CNN使用的是3x3卷积，因此3x3卷积的性能对图像识别和机器视觉极其重要。3x3卷积的计算方法有三种：(1)img2col+gemm(Image to Column+GEneral Matrix Mutiplication)；(2)快速傅立叶变换(FFT)；(3)Winograd算法。前两种方法需要占用过大的内存，不适合移动设备上使用。第(3)种针对3x3小卷积核和较小的内存可以得到很高的计算速度，其通常采用Winogra d(2x2,3x3)、Winograd(4x4,3x3)和Winograd(6x6,3x3)三种算法，相应的加速倍数为2.25、4和5.06倍。而现有的3x3卷积计算中普遍使用浮点Wino grad(6x6,3x3)算法进行加速。但使用速度更快的定点Winograd算法极其少，其原因是Winograd变换使得矩阵变成浮点，最终难以进行定点加速。

有鉴于此，如何实现对Winograd算法的定点加速，是目前需要解决的问题。

发明内容

本申请的目的在于提供一种基于Winograd算法的神经网络卷积方法、装置、电子设备及可读存储介质。

第一方面，本申请提供一种基于Winograd算法的神经网络卷积方法，所述方法包括：

获取待加速神经网络卷积的卷积核及图像块；

将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵；

根据目标矩阵、目标矩阵的转置矩阵及所述卷积核，得到第一变换矩阵；

根据Winograd算法中第二矩阵、第二矩阵的转置矩阵及所述图像块，计算得到第二变换矩阵；

根据Winograd算法中第三矩阵与所述第一变换矩阵和第二变换矩阵，得到卷积矩阵；

采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。

可选地，所述将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵，包括：

计算Winograd算法中矩阵元素为浮点型的第一矩阵用于整型化的对角矩阵；

根据矩阵元素为浮点型的第一矩阵及对角矩阵，得到矩阵元素为整型的目标矩阵。

可选地，所述卷积矩阵的计算公式如下：

其中，Y为卷积矩阵，D为对角矩阵，G′为目标矩阵，B为第二矩阵，k为卷积核，d为图像块，A为第三矩阵，G′kG′^T为第一变换矩阵，B^TdB为第二变换矩阵。

可选地，所述方法还包括：

将计算得到的所述第一变换矩阵采用短整型计算机数据类型进行存储；

将计算得到的所述第二变换矩阵采用短整型计算机数据类型进行存储；

将计算得到的所述第一变换矩阵和第二变换矩阵的计算结果累加到浮点型计算机数据类型进行存储，以防止溢出。

第二方面，本申请提供一种基于Winograd算法的神经网络卷积装置，所述装置包括：

获取模块，用于获取待加速神经网络卷积的卷积核及图像块；

转化模块，用于将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵；

计算模块，用于根据目标矩阵、目标矩阵的转置矩阵及所述卷积核，得到第一变换矩阵；根据Winograd算法中第二矩阵、第二矩阵的转置矩阵及所述图像块，计算得到第二变换矩阵；根据Winograd算法中第三矩阵与所述第一变换矩阵和第二变换矩阵，得到卷积矩阵；

处理模块，用于采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。

可选地，所述转化模块具体用于：

可选地，所述卷积矩阵的计算公式如下：

其中，Y为卷积矩阵，D为对角矩阵，G′为目标矩阵，G′kG′^T为第一变换矩阵，B为第二矩阵，k为卷积核，d为图像块，A为第三矩阵。

可选地，所述装置还包括：

存储模块，用于将计算得到的所述第一变换矩阵采用短整型计算机数据类型进行存储；将计算得到的所述第二变换矩阵采用短整型计算机数据类型进行存储；将计算得到的所述第一变换矩阵和第二变换矩阵的计算结果累加到浮点型计算机数据类型进行存储，以防止溢出。

第三方面，本申请提供一种电子设备，所述电子设备包括：

处理器及存储有若干计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述电子设备执行第一方面中任意一项所述的基于Winograd算法的神经网络卷积方法。

第四方面，本申请还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一方面中任意一项所述的基于Winograd算法的神经网络卷积方法。

相比现有技术，本申请提供的有益效果包括：本申请提供一种基于Winograd算法的神经网络卷积方法、装置、电子设备及可读存储介质，所述方法包括：获取待加速神经网络卷积的卷积核及图像块；将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵；根据目标矩阵、目标矩阵的转置矩阵及所述卷积核，得到第一变换矩阵；根据Winograd算法中第二矩阵、第二矩阵的转置矩阵及所述图像块，计算得到第二变换矩阵；根据Winograd算法中第三矩阵与所述第一变换矩阵和第二变换矩阵，得到卷积矩阵；采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。采用本申请提供的基于Winograd算法的神经网络卷积方法进行卷积计算，能够实现算法的定点加速，提高运算速度和精准度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为图1为本申请实施例提供的电子设备的结构示意框图；

图2为本申请实施例提供的基于Winograd算法的神经网络卷积方法的步骤流程框图；

图3为图2中步骤S202的子步骤流程示意框图；

图4为本申请实施例提供的Winograd变换示意图；

图5为本申请实施例提供的基于Winograd算法的神经网络卷积方法的其他步骤流程框图；

图6为本申请实施例提供的Winograd算法性能对比图；

图7为本申请实施例提供的基于Winograd算法的神经网络卷积装置的结构示意框图。

图标：100-电子设备；110-基于Winograd算法的神经网络卷积装置；111-存储器；112-处理器；113-通信单元；1101-获取模块；1102-转化模块；1103-计算模块；1104-处理模块；1105-存储模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的具体实施方式进行详细说明。

请参照图1，图1为本申请实施例提供的电子设备100的结构示意框图。所述电子设备100包括基于Winograd算法的神经网络卷积装置110、存储器111、处理器112及通信单元113。

所述存储器111、处理器112及通信单元113的各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，所述存储器111可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序，所述处理器112在接收到执行指令后，执行所述程序。所述通信单元113用于通过网络建立所述电子设备100与其它设备(比如设备终端)之间的通信连接，并用于通过网络进行数据的接收和发送。

请参照图2，图2为本申请实施例提供的基于Winograd算法的神经网络卷积方法的步骤流程框图，所述方法包括：

步骤S201，获取待加速神经网络卷积的卷积核及图像块。

步骤S202，将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵。

应当理解的是，在本实施例中，第一矩阵可以是指Winograd算法变换公式中的G矩阵。

步骤S203，根据目标矩阵、目标矩阵的转置矩阵及所述卷积核，得到第一变换矩阵。

步骤S204，根据Winograd算法中第二矩阵、第二矩阵的转置矩阵及所述图像块，计算得到第二变换矩阵。

步骤S205，根据Winograd算法中第三矩阵与所述第一变换矩阵和第二变换矩阵，得到卷积矩阵。

步骤S206，采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。

请参照图3，图3为图2中步骤S202的子步骤流程示意框图。在本实施例中，步骤S202可以包括子步骤S2021和子步骤S2022：

步骤S2021，计算Winograd算法中矩阵元素为浮点型的第一矩阵用于整型化的对角矩阵。

步骤S2022，根据矩阵元素为浮点型的第一矩阵及对角矩阵，得到矩阵元素为整型的目标矩阵。

进一步地，所述卷积矩阵的计算公式如下：

在本实施例中，Winograd算法可以是，Winograd(4x4，3x3)算法。此时，k可以是3x3卷积核，d可以是6x6图像块，Y可以是4x4卷积矩阵。

此时卷积矩阵可以表达为：

第一矩阵可以是：

第二矩阵可以是：

第三矩阵可以是：

在本实施例中，可以根据Hadamard(哈达玛)乘法的性质，计算得到第一矩阵G用于整型化的对角矩阵：

在本实施例中，对第一矩阵使用对角矩阵D进行整型化后，可以得到目标矩阵。

目标矩阵可以表示为：

应当理解的是，在本实施例中，在卷积矩阵的计算过程中，第一变换矩阵和第二变换矩阵的乘法计算量最大，对第一矩阵整型化是为了第一变换矩阵整型化，可以使第一变换矩阵和第二变换矩阵的Hadamard乘法提高速度。在其他实施例中，也可以对第二矩阵进行整型化后在对卷积矩阵进行卷积计算。第三矩阵A在第一矩阵G进行整型化后，对应提取出对角矩阵D后，会从整型矩阵转化为浮点型矩阵，而第三矩阵在卷积计算的过程中计算量最小，可以认为第三矩阵的变化对于卷积矩阵的卷积计算过程的复杂程度影响不及第一变换矩阵和第二变换矩阵的Hadamard乘法。

请参照图4及图5，图4为本申请实施例提供的Winograd变换示意图，图5为本申请实施例提供的基于Winograd算法的神经网络卷积方法的其他步骤流程框图，所述方法还包括：

步骤S207，将计算得到的所述第一变换矩阵采用短整型计算机数据类型进行存储。

在本实施例中，卷积神经网络(CNN)可以给出CN个3x3卷积核k，需进行CN次第一变换矩阵的乘法计算，得到CN个第一变换矩阵的计算结果。3x3卷积核k和目标矩阵G′都可以采用无符号字符型计算机数据类型进行存储。第一变换矩阵的计算结果可以采用短整型计算机数据类型进行存储。

步骤S208，将计算得到的所述第二变换矩阵采用短整型计算机数据类型进行存储。

在本实施例中，卷积神经网络(CNN)可以有C个输入图像，高和宽可以都是H和W，可以对输入图像进行分块处理。可以按照图4所示的方式将输入图像分为T个图像块，可以每隔4行取6x6个图像块(即6x6的图像块d)，比如，图4所示的图像块“1”和“2”。在输入图像中不足6x6个图像块的部分(如图4所示的图像块“3”)，则可以补零后(如图4所示的“4”部分)取图像块。可以将每个输入图像中的T个图像块通过第二变换矩计算得到CT个计算结果，即C个图4中“5”所示的矩阵。可以经过量化后采用短整型计算机数据类型进行存储。其中，T的计算公式可以是：

步骤S209，将计算得到的所述第一变换矩阵和第二变换矩阵的计算结果累加到浮点型计算机数据类型进行存储，以防止溢出。

在本实施例中，对于第一变换矩阵和第二变换矩阵的计算结果，需要进行Hadamard点乘，可以将CN个第一变换矩阵和对应C位置的CT个第二变换矩阵进行Hadamard点乘，如图4中图像块“1”、“2”和“3”所示的图像块与第一变换矩阵进行Hadamard点乘，得到CNT个整型存储的计算结果，其结果形式也如图4中矩阵“5”所示。在ARM CPU(AdvancedRISC Mach ines Central Processing Unit)的汇编指令中，可以使用短整型的乘法指令取代浮点型的乘法指令，以使得计算性能提升。

应当理解的是，在本实施例中，对于第一变换矩阵和第二变换矩阵的CNT个整型存储的计算结果，可以将C个图4中所述的矩阵“5”进行矩阵加法，得到NT个整型存储的计算结果，其结果形式也如图4中矩阵“5”所示。此时整型进行存储进行矩阵加法后会溢出，可以对其进行整型转浮点型处理。

在本实施例中，卷积矩阵Y对于第一变换矩阵和第二变换矩阵的CNT个整型存储的计算结果，在于第三矩阵A和对角矩阵D进行矩阵乘法计算，得到NT个4x4卷积矩阵Y，如图4中图像块“1”通过第一变换矩阵计算得到图4中矩阵“6”，图4中图像块“2”通过第一变换矩阵计算得到图4中矩阵“7”，图4中图像块“3”通过第一变换矩阵计算得到图4中矩阵“8”。在计算完成后，可以将补零后产生的凸块删除，如图4中“9”部分所示，此时得到C NN中需要的结果，如图4中矩阵“10”所示。

请参照图6，图6为本申请实施例提供的Winograd算法性能对比图。

在本实施例中，可以对比定点Winograd(4x4,3x3)、浮点Winograd(6x6,3x3)和浮点直接卷积(direct)的性能，加速比例定义公式可以是：

在本实施例中，对VGG16的卷积层进行性能对比(Arm Snapdragon835，8core@2.45GHz)。对于Winograd(2x2,3x3)算法也采用相同的卷积计算方法进行加速，如图所示。可以看出使用本发明的Winograd(4x4,3x3)定点卷积算法比Winograd(6x6,3x3)浮点算法拥有更高的性能。应当理解的是，当在64x3x224x224时，由于通道数较小，Winograd算法不及直接卷积的性能。

除了上述的性能提升外，Winograd(4x4,3x3)比Winograd(6x6,3x3)拥有更小的舍入误差，Winograd(4x4,3x3)部分过程的卷积计算也使得计算精度优于浮点的Winograd(6x6,3x3)，甚至优于浮点Winograd(4x4,3x3)。

请参照图7，图7为本申请实施例提供的基于Winograd算法的神经网络卷积装置110的结构示意框图，所述装置包括：

获取模块1101，用于获取待加速神经网络卷积的卷积核及图像块。

转化模块1102，用于将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵。

计算模块1103，用于根据目标矩阵、目标矩阵的转置矩阵及所述卷积核，得到第一变换矩阵；根据Winograd算法中第二矩阵、第二矩阵的转置矩阵及所述图像块，计算得到第二变换矩阵；根据Winograd算法中第三矩阵与所述第一变换矩阵和第二变换矩阵，得到卷积矩阵。

处理模块1104，用于采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。

进一步地，所述转化模块1102具体用于：

进一步地，所述卷积矩阵的计算公式如下：

请再次参照图7，所述装置还包括：

存储模块1105，用于将计算得到的所述第一变换矩阵采用短整型计算机数据类型进行存储；将计算得到的所述第二变换矩阵采用短整型计算机数据类型进行存储；将计算得到的所述第一变换矩阵和第二变换矩阵的计算结果累加到浮点型计算机数据类型进行存储，以防止溢出。

本实施例还提供一种电子设备100，所述电子设备100包括：

处理器112及存储有若干计算机指令的非易失性存储器111，所述计算机指令被所述处理器112执行时，所述电子设备100执行前述的基于Wi nograd算法的神经网络卷积方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现前述的基于Winograd算法的神经网络卷积方法。

综上所述，本申请提供一种基于Winograd算法的神经网络卷积方法、装置、电子设备及可读存储介质，所述方法包括：获取待加速神经网络卷积的卷积核及图像块；将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵；根据目标矩阵、目标矩阵的转置矩阵及所述卷积核，得到第一变换矩阵；根据Winograd算法中第二矩阵、第二矩阵的转置矩阵及所述图像块，计算得到第二变换矩阵；根据Winograd算法中第三矩阵与所述第一变换矩阵和第二变换矩阵，得到卷积矩阵；采用所述卷积矩阵对输入该神经网络的图像进行卷积处理，得到卷积处理后图像。采用本申请提供的基于Winograd算法的神经网络卷积方法进行卷积计算，能够实现算法的定点加速，提高运算速度和精准度。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于Winograd算法的神经网络卷积方法，其特征在于，所述方法包括：

获取待加速神经网络卷积的卷积核及图像块；

2.根据权利要求1所述的方法，其特征在于，所述将Winograd算法中矩阵元素为浮点型的第一矩阵转换为矩阵元素为整型的目标矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，所述卷积矩阵的计算公式如下：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种基于Winograd算法的神经网络卷积装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述转化模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述卷积矩阵的计算公式如下：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器及存储有若干计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述电子设备执行权利要求1-4中任意一项所述的基于Winograd算法的神经网络卷积方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-4中任意一项所述的基于Winograd算法的神经网络卷积方法。