CN112784951A

CN112784951A - Winograd卷积运算方法及相关产品

Info

Publication number: CN112784951A
Application number: CN201911061089.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2021-05-11
Anticipated expiration: 2039-11-01
Also published as: WO2021082725A1; CN112784951B

Abstract

本申请提供的Winograd卷积运算方法及相关产品，包括：处理器和存储器；其中，所述存储器，用于存储程序代码；所述处理器，用于调用所述存储器中所存储的程度代码，执行Winograd卷积运算方法。本申请提供的运算方法及相关产品能够提高神经网络训练的运算效率，降低训练过程所占用的运算资源。

Description

Winograd卷积运算方法及相关产品

技术领域

本申请涉及深度学习技术领域，尤其涉及一种Winograd卷积运算方法及相关产品。

背景技术

近年来，深度学习技术得到了飞速发展，特别是在图像识别、语音识别、自然语言分析、智能机器人、大数据分析等领域得到了广泛引用，成为了研究重点。

神经网络模型是深度学习技术中的运算模型，通过利用多层架构以对输入的数据进行处理，并输出相应的运算结果。在现有技术中，对于神经网络模型进行训练是使用神经网络模型进行运算的必要步骤，在训练过程中，待训练的神经网络将利用卷积算法对海量训练数据重复进行迭代运算以得到训练完毕的神经网络模型。

但是，卷积运算中涉及到大量的对于矩阵的乘法，这将占用大量的运算资源，运算效率不高，同时，较低的运算效率将使得对神经网络模型进行训练所需的时间较长，训练效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够用于提高神经网络模型训练效率，降低训练运算损耗资源的Winograd卷积运算方法及相关产品。

第一方面，本申请提供了一种Winograd卷积运算方法，包括：

在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将所述神经网络中第j层的反向输入梯度以及第j层的正向输入特征数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及第j层的正向输入特征数据正变换运算的变换结果；

对第j层的反向输入梯度正变换运算的变换结果和第j层的正向输入特征数据正变换运算的变换结果执行对位乘法运算，获得第一乘法运算结果；

将第一乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的权值差；

根据所述第j层的权值差完成所述神经网络的训练。

第二方面，本申请提供了一种Winograd卷积运算装置，包括：

数据接收模块，用于获取对神经网络进行训练的正向输入特征数据；

变换模块，用于在训练模块基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将所述神经网络中第j层的反向输入梯度以及第j层的正向输入特征数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及第j层的正向输入特征数据正变换运算的变换结果；

对位乘模块，用于对第j层的反向输入梯度正变换运算的变换结果和第j层的正向输入特征数据正变换运算的变换结果执行对位乘法运算，获得第一乘法运算结果；

变换模块，还用于将第一乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的权值差；

权值更新模块，用于根据所述第j层的权值差完成所述神经网络的训练。

第三方面，本申请提供了一种人工智能芯片，所述芯片包括如前任一项所述的Winograd卷积运算装置。

第四方面，本申请提供了一种电子设备，所述电子设备包括如前所述的人工智能芯片。

第五方面，本申请提供了一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及如前所述的人工智能芯片；

其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；

所述控制器件，用于对所述人工智能芯片的状态进行监控。

本申请提供的Winograd卷积运算方法及相关产品，通过在接收训练指令和获取特征数据之后，采用Winograd算法以利用特征数据对神经网络中的权值数据进行训练，获得训练后的神经网络，与现有技术相比，本申请利用了Winograd算法中将大量矩阵乘法运算转换为矩阵加法运算的特点，有效提高了对于神经网络的训练数据进行处理的运算效率，降低了训练过程所占用的运算资源。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。

图1为现有技术中的神经网络架构示意图；

图2示出根据本公开实施例的Winograd卷积运算方法所基于的运算系统的示意图；

图3为本申请提供的一种神经网络的训练方法的流程示意图；

图4为本申请提供的一种Winograd卷积运算方法的流程示意图；

图5为本申请提供的另一种Winograd卷积运算方法的流程示意图；

图6为本申请提供的又一种Winograd卷积运算方法的流程示意图；

图7为本申请提供的一种Winograd卷积运算装置的结构示意图；

图8示出根据本公开实施例的板卡的结构框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应当理解，本公开的权利要求、说明书及附图中的术语“第一”、“第二”、“第三” 和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本公开的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/ 或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本公开说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本公开。如在本公开说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本公开说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为 “当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定” 或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

为了清楚理解本申请的技术方案，下面对现有技术和本申请实施例中涉及的技术术语进行解释：

卷积运算：卷积运算是指从图像的左上角开始，开一个与模板同样大小的活动窗口，活动窗口对应一个窗口图像，该窗口图像为卷积核，窗口图像与图像中的像素对应起来相乘再相加，并用计算结果作为卷积运算后新图像的第一个像素值。然后，活动窗口向右移动一列，并作同样的运算。以此类推，从左到右、从上到下，即可得到一幅新图像。

Winograd卷积运算：Winograd卷积运算是一种基于多项式插值算法的卷积加速实现方式。它通过对卷积操作的两个输入：第一目标矩阵和第二目标矩阵分别进行Winograd卷积正变换，再将正变换后的第一目标矩阵和第二目标矩阵进行对位乘法，最后对对位乘法结果再次进行Winograd卷积逆变换，得到与原卷积操作等价的卷积结果。

卷积神经网络：卷积神经网络技术是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。在卷积神经网络技术中的卷积层，全连接层等网络层中均需要神经元与卷积核进行卷积运算，得到特征数据，其被广泛用于图像分类、图像识别等。

作为一种示例，图1为现有技术中的神经网络架构示意图，如图1所示，该神经网络采用了包括有卷积层、池化层、全连接层以及分类器层的输出层的网络架构。该神经网络包括多层依次进行的处理。举例来说，卷积层用于对输入本层的特征数据进行特征提取(第一层卷积层即用于对原始输入的特征数据进行特征提取)；池化层用于对上一层输出的特征通过人为设定的池化窗口大小以及步长进行池化计算，以减小特征的维度，使特征聚合。

具体来说，在神经网络的第一层卷积网络接收到原始输入的数据(比如待处理图像) 后，神经网络开始对待处理图像进行卷积神经网络处理，其中每层卷积网络均进行卷积神经网络的处理；且除最后一层卷积网络外，其它每层卷积网络在完成处理后，均将自身的处理结果输出至下一层卷积网络，下一层卷积网络可用该处理结果作为本身的输入数据，继续进行卷积神经网络的后续处理。

关于上述卷积神经网络处理，无论是在神经网络的推理过程还是在神经网络的训练过程，均需要将输入的特征数据与神经网络中的权值数据进行卷积运算，且该卷积运算的次数一般为多次。随着，特征数据的数据量增大，其运算的复杂性将相应升高。此时，若采用传统的基于矩阵乘法的卷积运算将使得执行该神经网络运算的运算装置处理超负荷运算状态，其运算时长和运算所需资源均大大增加。

举例来说，通过神经网络的权值对特征数据进行卷积的过程中，需要大量的乘法运算。例如输入一个卷积层的特征数据维度是4×4，该卷积层的卷积核的维度是3×3，滑动步长是1，则可以通过卷积核在特征数据上的滑动，将特征数据拆分为四个维度是3×3的子数据，通过卷积核与每个子数据的卷积运算，能够输出2×2的输出数据。具体可以用卷积核与子数据进行对位乘法运算，再将九个乘积相加，得到输出数据中的一个值。在上述例子中，共需要36次乘法、32次加法运算，才能够得到输出结果。

同理的，在对神经网络进行训练的训练过程中，将首先对神经网络基于正向的传播训练处理，此时，特征输入被输入至神经网络，并与权值数据进行卷积，得到正向传播的输出结果；随后，还将对神经网络基于反向的传播训练处理，此时，梯度数据将与特征数据进行卷积，以得到的用于对权值数据进行调整的权值差。在上述例子中，对神经网络进行训练的训练过程，其正向的传播训练处理将需要36次乘法、32次加法运算，才能够能得到正向传播的输出结果，在反向的传播训练处理也将至少需要36次乘法、32次加法运算，才能够能得到反向传播的输出结果。

而对于运算系统来说，进行乘法的运算对于运算系统的消耗较大，这将直接造成运算效率低下，以及训练效率的降低。

为了解决这一问题，本申请采用了基于预配置的Winograd卷积算法以应用于神经网络训练过程的卷积运算中，特别是应用在神经网络训练的反向传播训练过程。具体的，本申请采用的基于预配置的Winograd卷积算法是一种可将卷积运算转换为由大量矩阵加法运算和少量矩阵乘法运算的运算方法，在本申请中，考虑运算器对于数据进行矩阵乘法运算所需的时间和资源，远大于对数据进行矩阵加法运算所需的时间和资源，在本申请中，通过利用Winograd卷积算法以减小运算资源消耗较大的矩阵乘法运算的次数，相对增加消耗较小的矩阵加法运算的次数，从而降低整个神经网络训练过程在反向传播处理时的运算资源消耗量和运算时间，提高运算效率。

以神经网络训练的场景作为示例，下面将结合附图对本申请提供的Winograd卷积运算方法及相关产品进行解释和说明：

图2示出根据本公开实施例的Winograd卷积运算方法所基于的运算系统的示意图，本申请提供的Winograd卷积运算方法可以应用于图2所示的运算系统中，如图 2所示，运算系统100包括多个处理器101以及存储器102，多个处理器101用于执行指令序列，存储器102用于存储数据，可包括随机存储器(RAM，Random Access Memory)和寄存器堆。处理系统100中的多个处理器101既可共用部分存储空间，例如共用部分RAM存储空间和寄存器堆，又可同时拥有各自的存储空间，该运算系统用于执行本申请运算方法所执行的各步骤。

根据本公开实施例的Winograd卷积运算方法可应用于包括多个处理器(多核)的运算系统(例如人工智能芯片)的任意一个处理器中。该处理器可以是通用处理器，例如CPU (Central Processing Unit，中央处理器)，也可以是用于执行人工智能运算的人工智能处理器(IPU)。人工智能运算可包括机器学习运算，类脑运算等。其中，机器学习运算包括神经网络运算、k-means运算、支持向量机运算等。该人工智能处理器可例如包括 GPU(Graphics Processing Unit，图形处理单元)、NPU(Neural-Network Processing Unit，神经网络处理单元)、DSP(Digital Signal Process，数字信号处理单元)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)芯片中的一种或组合。本公开对处理器的具体类型不作限制。此外，运算系统中的多个处理器的类型可以相同或不同，本公开对此不作限制。

在一种可能的实现方式中，本公开中所提及的处理器可包括多个处理单元，每个处理单元可以独立运行所分配到的各种任务，如：卷积运算任务、池化任务或全连接任务等。本公开对处理单元及处理单元所运行的任务不作限制。

此外，基于不同的使用场景，其神经网络中的网络层将相应调整，其中的权值数据、特征数据也将相应变换。也就是说，本申请所述的Winograd卷积运算方法、Winograd卷积运算装置及运算芯片可用于不同场景下的神经网络的训练，如对于人脸识别模型的训练，对于颜色分类器的训练，对于音视频数据转换模型的训练，对于图像边界划分模型的训练等等。相应的，在本申请中，训练完毕的神经网络可用于实现推理过程，其适用于不同的场景，例如人脸识别、颜色分类、基于特殊需求的音视频数据转换、图像边界划分等等。

第一方面，图3为本申请提供的一种神经网络的训练方法的流程示意图，如图3 所示的，该方法，其包括：

步骤101、接收训练指令，获取特征数据；

步骤102、利用所述特征数据和神经网络的权值数据，采用Winograd算法对所述神经网络进行训练，得到训练后的神经网络。

需要说明的是，该训练方法的执行主体可为Winograd卷积运算装置，其可与包括运算芯片、神经网络芯片等芯片进行交互，以接收来自用户的电子设备或组合处理装置等发起的训练指令。其中，训练指令可用于指示运算装置开始执行对神经网络进行训练的运算。

其中，本申请所提供的Winograd卷积运算方法则可应用于步骤1-102中，以提高神经网络训练过程的训练效率。

为了便于理解，首先将对本申请涉及的Winograd算法的进行介绍：

Winograd算法是一种可将卷积运算转换为由大量矩阵加法运算和少量矩阵乘法运算的运算方法，其运算公式可以公式(1)的形式进行表示：

S＝A^T[(GgG^G)⊙(B^TdB)]A 公式(1)

其中，S用于表示卷积的结果矩阵，即使用特征数据与权值数据进行卷机运算得到的结果矩阵；d用于表示输入的特征数据；g用于表示神经网络中的权值数据；B用于表示将特征数据从原域转换至Winograd域的特征变换矩阵；B^T用于表示将特征数据从Winograd域转换至原域的特征逆变换矩阵；G用于表示将权值数据从原域转换至Winograd域的权值变换矩阵；G^T用于表示将权值数据从转换Winograd域至原域的权值逆变换矩阵；A用于表示将对位乘后的运算结果从原域转换至Winograd域的逆变换运算的变换矩阵；A^T用于表示将对位乘后的运算结果从转换Winograd域至原域的逆变换运算的逆变换矩阵。

需要说明的是，上述的原域是指未经过Winograd变换的域，而Winograd域是指经过 Winograd变换的域。上述的特征数据d和权值数据g可为固定规模大小的矩阵，其中特征数据d的规模可在4*4的范围内，而权值数据g的规模可在3*3的范围内，其规模的选取与结果矩阵的规模有关，本申请不进行限制。同时，在Winograd算法中，A、B、G、A^T、 B^T、G^T均为转换矩阵，且该常数矩阵的规模和取值均与前述的结果矩阵S和权值数据g的规模相关。此外，针对不同规模的常数矩阵，其元素值也将存在差异，但针对每一规模的每一类常数矩阵，其元素值是固定的。

在本申请涉及的整个训练过程中，Winograd卷积运算装置将获取到特征数据。该特征数据可携带在训练指令中，并随着该训练指令一并发送至运算装置，以供其获取；该特征数据也可由运算装置在接收到训练指令之后，对该训练指令进行响应，并基于预存的数据存储地址，或接收的携带在训练指令中的数据存储地址，从与数据存储地址相应的数据存储位置进行读取。可知的是，用于训练的特征数据的数据量较大，在可选实施方式中，在本领域技术人员完成对于训练的特征数据进行采集和标注等操作之后，可将其存储于云端服务器中，当运算装置接收到训练指令之后，可根据该训练指令指示的训练方式以及存储地址，从云端服务器中读取所需要的特征数据，并进行处理和运算。

具体来说，针对于本申请涉及到的Winograd卷积运算方法，其可应用于前述的步骤102中，特别应用在对神经网络进行训练的反向传播训练过程中。

以神经网络包括n层，n为大于等于2的整数为例，Winograd卷积运算装置在获取到特征数据之后，首先将利用特征数据和各层的权值数据，对所述神经网络进行正向传播处理，获得第n层的正向输出特征数据。

随后，Winograd卷积运算装置将采用下述步骤201至步骤204的方法，利用各层的输入梯度、各层的正向输入特征数据、以及各层的权值数据，对所述神经网络进行反向传播处理，以对各层的权值数据进行更新。

图4为本申请提供的一种Winograd卷积运算方法的流程示意图，如图4所示的，该方法，其包括：

步骤201、分别将所述神经网络中第j层的反向输入梯度以及第j层的正向输入特征数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及第j层的正向输入特征数据正变换运算的变换结果；

步骤202、对第j层的反向输入梯度正变换运算的变换结果和第j层的正向输入特征数据正变换运算的变换结果执行对位乘法运算，获得第一乘法运算结果；

步骤203、将第一乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的权值差；

步骤204、根据所述第j层的权值差完成所述神经网络的训练。

具体来说，针对于神经网络中的第j层(j属于n)来说，在对该第j层进行反向传播训练时，将会向其网络层输入第j层的反向输入梯度以及正向输入特征数据，以使通过对反向输入梯度以及正向输入特征数据进行卷积运算获得第j层的权值差，进而根据该第j层的权值差完成第j层的权值数据的更新。重复该过程直至完成对n 层神经网络中的每一层的权值数据的更新，以完成对神经网络的训练。

在本实施例提供的方法中，可以采用winograd算法对反向传播训练时的反向输入梯度以及正向输入特征数据的卷积运算进行变换。

其中，针对采用Winograd算法进行权值差的运算，可采用公式(2)进行表示：

Δw_j＝G^T[(Atop_diff_jA^T)⊙(B^Ttop_data_jB)]G 公式(2)

其中，Δw_j用于表示权值差，即使用反向输入梯度与正向输入特征数据进行卷积运算得到的结果矩阵；top_diff_j用于表示第j层的反向输入梯度，其与第j+1层的反向输出梯度相同；top_data_j用于表示神经网络中的第j层的正向输入特征数据，其与第j-1层的正向输出特征数据相同；B用于表示将正向输出特征数据从原域转换至winograd域的变换矩阵；B^T用于表示将正向输出特征数据从winograd域转换至原域的逆变换矩阵；A用于表示将反向输入梯度从原域转换至winograd域的变换矩阵；A^T用于表示将反向输入梯度从转换winograd域至原域的逆变换矩阵；G用于表示将对位乘后的运算结果从原域转换至winograd域的逆变换运算的变换矩阵；G^T用于表示将对位乘后的运算结果从转换winograd域至原域的逆变换运算的逆变换矩阵。

需要说明的是，上述的原域是指未经过winograd变换的域，而winograd域是指经过 winograd变换的域。

实际应用时，在winograd算法中，需要对反向输入梯度与正向输入特征数据分别进行正变换运算，因此，本实施例提供的方法可以获取用于对反向输入梯度与正向输入特征数据进行正变换运算的变换矩阵A、A^T、B^T、B，以及对位乘后的运算结过进行逆变换运算的变换矩阵G、G^T。

在本实施例中，若top_diff_j和top_data_j的尺寸固定，则A、A^T、B、B^T、G、G^T矩阵也是固定的。具体可以根据需要的输出结果Δw_j的尺寸以及卷积过程的滑动步长，确定 top_diff_j和top_data_j的尺寸，进而根据这些数据的尺寸确定对应的A、A^T、B、B^T、G、G^T。

Winograd卷积运算装置可以使用变换矩阵B、B^T对正向输入特征数据top_data_j进行正变换运算，得到B^Ttop_data_jB的运算结果，使用变换矩阵A、A^T对反向输入梯度top_diff_j进行正变换运算，得到Atop_diff_jA^T的运算结果。随后，Winograd卷积运算装置将对第j层的反向输入梯度正变换运算的变换结果Atop_diff_jA^T以及第j层的正向输入特征数据正变换运算的变换结果B^Ttop_data_jB执行对位乘法运算，获得第一乘法运算结果(Atop_diff_jA^T)⊙(B^Ttop_data_jB)。再后，Winograd卷积运算装置使用变换矩阵G、G^T对第一乘法运算结果进行逆变换运算，以得到最后的权值差 G^T[(Atop_diff_jA^T)⊙(B^Ttop_data_jB)]G。该权值差将用于对第j层的权值数据进行调整。

也就是说，在本公开实施例中，对于正变换运算和逆变换运算，均可采用将变换运算拆解为求和运算的方式进行，根据求和运算确定正变换运算和逆变换运算的运算结果率。传统的卷积运算中乘法运算次数较多，通过采用winograd算法进行卷积处理，从而有效降低了变换运算中乘法运算的次数，相对增加了加法运算的次数，进而提高的运算效率，降低运算带来的性能损耗。

可选的，对于神经网络进行训练中，第j层的反向输入梯度是等同于第j+1层的反向输出梯度的，第j层的反向输出梯度是等同于第j-1层的反向输出梯度的。而对于第j层的反向输出梯度的获取，则可通过对第j层的反向输入梯度与第j层的权值数据进行卷积运算获得，该卷积运算可采用前述的预配置的Winograd卷积算法，图 1-5为本申请提供的另一种Winograd卷积运算方法的流程示意图，如图1-5所示的方法可适用于获取图4中对于任一层的反向输入梯度的获取，该方法其包括：

步骤301、在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将第j层的反向输入梯度以及第j层的权值数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及所述第j 层的权值数据正变换运算的变换结果；

步骤302、对所述第j层的反向输入梯度正变换运算的变换结果和所述第j层的权值数据正变换运算的变换结果执行对位乘法运算，获得第二乘法运算结果；

步骤303、将第二乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的反向输出梯度。

在本实施例提供的方法中，可以采用winograd算法对反向传播训练时的权值数据和反向输入梯度的卷积运算进行变换，以得到反向输出梯度。

其中，针对采用Winograd算法进行反向输出梯度的运算，可采用公式(3)进行表示：

bottom_diff_j＝A^T[(Gg_jG^T)⊙(B^Ttop_diff_jB)]A 公式(3)

其中，bottom_diff_j用于表示第j层的反向输出梯度，即使用第j层的反向输入梯度与第j层的权值数据进行卷积运算得到的结果矩阵，该第j层的反向输出梯度也将作为第 j-1层的反向输入梯度；top_diff_j用于表示第j层的反向输入梯度，其与第j+1层的反向输出梯度相同；g_j用于表示神经网络中的第j层的权值数据；B用于表示可将反向输入梯度从原域转换至winograd域的变换矩阵；B^T用于表示可将反向输入梯度从winograd域转换至原域的逆变换矩阵；G用于表示可将权值数据从原域转换至winograd域的变换矩阵； G^T用于表示可将权值数据从转换winograd域至原域的逆变换矩阵；A用于表示将对位乘后的运算结果从原域转换至winograd域的逆变换运算的变换矩阵；A^T用于表示将对位乘后的运算结果从转换winograd域至原域的逆变换运算的逆变换矩阵。

实际应用时，在winograd算法中，需要对反向输入梯度与权值数据分别进行正变换运算，因此，本实施例提供的方法可以获取用于对反向输入梯度与权值数据进行正变换运算的变换矩阵G、G^T、B^T、B，以及对位乘后的运算结过进行逆变换运算的变换矩阵A、 A^T。

在本实施例中，若top_diff_j和g_j的尺寸固定，则A、A^T、B、B^T、G、G^T矩阵也是固定的。具体可以根据需要的输出结果bottom_diff_j的尺寸以及卷积过程的滑动步长，确定 top_diff_j和g_j的尺寸，进而根据这些数据的尺寸确定对应的A、A^T、B、B^T、G、G^T。

Winograd卷积运算装置可以使用变换矩阵B、B^T对反向输入梯度top_diff_j进行正变换运算，得到B^Ttop_diff_jB的运算结果，使用变换矩阵G、G^T对权值数据g_j进行正变换运算，得到Gg_jG^T的运算结果。随后，Winograd卷积运算装置将对第j层的反向输入梯度正变换运算的变换结果B^Ttop_diff_jB以及第j层的权值数据正变换运算的变换结果Gg_jG^T执行对位乘法运算，获得第二乘法运算结果(Gg_jG^T)⊙(B^Ttop_diff_jB)。再后， Winograd卷积运算装置使用变换矩阵A、A^T对第二乘法运算结果进行逆变换运算，以得到最后的反向输出梯度A^T[(GgjG^T)⊙(B^Ttop_diff_jB)]A。该反向输出梯度将作为第 j-1层的反向输入梯度，以供第j-1层利用该反向输入梯度计算第j-1层的反向输出梯度。当然，类似的，在上述过程中第j层的反向输入梯度是由第j+1层对该第j+1 层的反向输入梯度和权值数据进行运算处理获得并输出给第j层的。

可选的，对于神经网络进行训练中，还包括有正向传播的训练，在正向传播的训练中也可采用将卷积运算进行拆分求和的运算处理，图6为本申请提供的又一种 Winograd卷积运算方法的流程示意图，该图6所示的方法可与图4或图5组合使用，一同作用于对于神经网络的训练过程，图6所示方法也可独立使用，单独作用于神经网络的训练过程。

该方法，包括：

步骤401、基于所述预配置的Winograd算法，分别将第i层的正向输入特征数据以及第i层的权值数据的正变换运算拆解为求和运算，以获取所述第i层的正向输入特征数据正变换运算的变换结果，以及所述第i层的权值数据正变换运算的变换结果；

步骤402、对所述第i层的正向输入特征数据正变换运算的变换结果和所述第i 层的权值数据正变换运算的变换结果执行对位乘法运算，获得第三乘法运算结果；

步骤403、对第三乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第i层的正向输出特征数据。

在本实施例提供的方法中，可以采用winograd算法对正向传播训练时的权值数据和正向输入特征数据的卷积运算进行变换，以得到正向输出特征数据。

其中，针对采用Winograd算法进行正向输出特征数据的运算，可采用公式(4) 进行表示：

bottom_data_i＝A^T[(Gg_iG^T)⊙(B^Ttop_data_iB)A 公式(4)

其中，bottom_data_i用于表示第i层(i属于m)的正向输出特征数据，即使用第i 层的正向输入特征数据与第i层的权值数据进行卷积运算得到的结果矩阵，该第i层的正向输出特征数据也将作为第i+1层的正向输入特征数据；top_data_i用于表示第i层的正向输入特征数据，其与第i-1层的正向输出特征数据相同；g_i用于表示神经网络中的第i 层的权值数据；B用于表示可将正向输入特征数据从原域转换至winograd域的变换矩阵； B^T用于表示可将正向输入特征数据从winograd域转换至原域的逆变换矩阵；G用于表示可将权值数据从原域转换至winograd域的变换矩阵；G^T用于表示可将权值数据从转换 winograd域至原域的逆变换矩阵；A用于表示将对位乘后的运算结果从原域转换至 winograd域的逆变换运算的变换矩阵；A^T用于表示将对位乘后的运算结果从转换winograd 域至原域的逆变换运算的逆变换矩阵。

实际应用时，在winograd算法中，需要对正向输入特征数据与权值数据分别进行正变换运算，因此，本实施例提供的方法可以获取用于对正向输入特征数据与权值数据进行正变换运算的变换矩阵G、G^T、B^T、B，以及对位乘后的运算结过进行逆变换运算的变换矩阵A、A^T。

在本实施例中，若top_data_i和g_i的尺寸固定，则A、A^T、B、B^T、G、G^T矩阵也是固定的。具体可以根据需要的输出结果bottom_data_i的尺寸以及卷积过程的滑动步长，确定 top_data_i和g_i的尺寸，进而根据这些数据的尺寸确定对应的A、A^T、B、B^T、G、G^T。

Winograd卷积运算装置可以使用变换矩阵B、B^T对正向输入特征数据top_data_i进行正变换运算，得到B^Ttopdata_iB的运算结果，使用变换矩阵G、G^T对权值数据g_i进行正变换运算，得到Gg_iG^T的运算结果。随后，Winograd卷积运算装置将对第i层的正向输入特征数据正变换运算的变换结果B^Ttop_data_iB以及第i层的权值数据正变换运算的变换结果Gg_iG^T执行对位乘法运算，获得第三乘法运算结果 (Gg_iG^T)⊙(B^Ttop_data_iB)。再后，Winograd卷积运算装置使用变换矩阵A、A^T对第三乘法运算结果进行逆变换运算，以得到最后的正向输出特征数据 A^T[(Gg_iG^T)⊙(B^Ttop_data_iB)]A。该正向输出特征数据将作为第i+1层的正向输入特征数据，以供第i+1层利用该正向输入特征数据计算第i+1层的正向输出特征数据。当然，类似的，在上述过程中第i层的正向输入特征数据是由第i-1层对该第i-1层的正向输入特征数据和权值数据进行运算处理获得并输出给第i层的。

也就是说，在本公开实施例中，对于图4、图5以及图6中涉及到的正变换运算和逆变换运算，均可采用将变换运算拆解为求和运算的方式进行，根据求和运算确定正变换运算和逆变换运算的运算结果率。传统的卷积运算中乘法运算次数较多，通过采用 winograd算法进行卷积处理，从而有效降低了变换运算中乘法运算的次数，相对增加了加法运算的次数，进而提高的运算效率，降低运算带来的性能损耗。

进一步的，为了降低乘法次数，降低运算带来的性能损耗，本实施例提供的方法中，将正变换运算或逆变换运算拆解为求和运算的处理方式可采用如下方式：将目标数据拆解为与所述目标数据对应的多个子张量，并对所述多个子张量进行变换运算并求和，根据求和运算的结果得到所述目标数据对应的变换结果；所述目标数据包括如下一种：反向输入梯度、正向输入特征数据、权值数据、第一乘法运算结果、第二乘法运算结果和第三乘法运算结果。

也就是说，实际应用时，可以前述中涉及到的对反向输入梯度、正向输入特征数据以及权值数据的正变换运算拆解为多个子变换结果，再将子变换结果的求和结果确定为相应的变换结果，还可将涉及到的对第一乘法运算结果、第二乘法运算结果以及第三乘法运算结果的逆变换运算拆解为多个子多个子变换结果，再将子变换结果的求和结果确定为相应的变换结果。

其中，以B^Ttop_data_jB进行举例来说，假设正向输入特征数据top_data_j是4×4的矩阵，则可以预先设置top_data_j中每个元素对应的替换矩阵，例如d₀₀对应一矩阵D₀₀，d₀₁对应一D₀₁……d₃₃对应一D₃₃。替换矩阵可以是包括0、1、﹣1的矩阵。

在对top_data_j进行变换时，可以直接读取与top_data_j对应的替换矩阵，并提取top_data_j中的每个元素，用该元素与相应的替换矩阵相乘再相加，得到变换结果。具体可以根据正向输入特征数据的尺寸、特征转换矩阵B、特征逆变换矩阵B^T确定替换矩阵，在对正向输入特征数据进行变换时，可以直接读取预先存储的特征转换替换矩阵。

具体的，通过单个元素与替换矩阵进行相乘的运算，能够降低乘法次数。尤其在替换矩阵由0、1、﹣1组成的时候，更能够大幅的降低运算量。例如，特征数据是4×4的矩阵，共包括d₀₀、d₀₁……d₃₃这个16个元素，此时，可以具有与这些元素对应的16个替换矩阵D₀₁、D₀₁……D₃₃。

进一步的，所述目标数据对应的多个子张量之和为所述目标数据；所述多个子张量的个数与所述目标数据中非0元素的个数相同，每个所述子张量中有单个非0元素，且在所述子张量中的非0元素与在所述目标数据中对应位置的非0元素相同。也就是说，以目标数据为正向输入特征数据top_data_j为例，其可表示为：

则可以根据上述规定，将正向输入特征数据top_data_j拆分为16个(假设特征数据中的元素均为非0时)，子张量分别为：

实际应用时，将目标数据拆分为子张量之后，可以使用变换矩阵对每个子张量进行变换，再将子张量的变换结果相加，得到特征变换结果。

其中，由于子张量之和与目标数据等同，那么对目标子数据进行变换，再将变换结果相加得到的结果，与目标数据的变换结果相同。

例如，对于其中的一个子张量，可以基于下式对其进行转换：

针对每个子张量，都可以进行如上的变换，再将各个子张量的变换结果相加，得到变换结果。

为了进一步的减少运算过程中的乘法运算，在对子张量进行变换运算并求和，得到变换结果时，还可以：

根据子张量确定对应的元子张量，其中，元子张量是将子张量的非0元素置为1的张量；

确定特征子张量的变换结果；

对子张量的变换结果进行求和，得到特征变换结果。

其中，可以识别子张量中的非0元素，并将非0元素对应的位置设置为1，得到元子张量，例如对于子张量

来说，对应的元子张量是：

针对每个子张量都可以确定其对应的元子张量。

在对子张量进行变换时，可以根据变换矩阵、元子张量及其对应的非0元素，确定子张量的变换结果。

具体可以对元子张量左边乘以变换矩阵中的左乘矩阵、右边乘以特征变换矩阵中的右乘矩阵，并将结果与元子张量对应的非0元素相乘，得到子张量的变换结果；其中，特征元子张量中的左乘矩阵和右乘矩阵都是由子张量的规模确定的

例如对于

来说，可以转换为

由于矩阵中的元素除了0就是1，因此，对于上式的运算过程引起的性能损耗较小。

进一步的，由于根据正向输入特征数据的尺寸可以确定B^T、B，并且，元子张量也是预先可以根据正向输入特征数据确定的。因此，还可以预先根据B^T、B、元子张量确定与特征数据中每个元素位置对应的替换矩阵。

例如，对于第一行第一列的元素位置，替换矩阵为：

基于上式可以得知，子张量

的变换结果变为：

d₀₀×D₀₀

针对正向输入特征数据中每个元素位置都可以确定对应的替换矩阵，可以在对正向输入特征数据进行变换时，直接根据数据尺寸，确定对应的替换矩阵集合，再根据替换矩阵集合确定变换结果。

具体运算时，得到

B^Ttop_data_iB＝d₀₀×D₀₁+d₀₁×D₀₁...d₃₃×D₃₃

当替换矩阵由0、1、-1组成时，元素与替换矩阵的乘法被改变为直接写入数据的过程，例如替换矩阵中的1与d₀₀相乘，实际结果为直接写入d₀₀。因此，基于本实施例提供的方法，能够将winograd算法中的变换过程转换为加法算法，从而进一步的降低卷积过程的运算量。

而对其他类型数据，如top_diff_j或g_j等，进行正变换运算的过程，则与对top_data_j进行正变换运算的过程类似，在此不做赘述。

此外，在确定正变换运算的变换结果之后，还可将基于运算目标采用这两个结果进行对位乘运算。例如，在得到了图1-4所示方法中的，B^Ttop_data_jB及Atop_diff_jA^T之后，可以对这两个运算结果进行对位乘运算，即确定

(Atop_diff_jA^T)⊙(B^Ttop_data_jB)的结果。

实际应用时，可以将两个变换结果相应位置的数值相乘，从而得到新的矩阵作为乘法运算结果。例如反向输入梯度的变换结果为：

正向输入特征数据的变换结果为：

则第一乘法运算结果可表示为：

可以获取用于对乘法运算结果进行逆变换的逆变换矩阵A、A^T。如上所述，可以根据运算结果的尺寸确定逆变换矩阵。

进一步的，可以使用逆变换矩阵对乘法运算结果进行逆变换，例如，可采用拆分求和的方式确定对第一乘法运算结果的逆变换运算的变换结果，即权值差： Δw_j＝G^T[(Atop_diff_jA^T)⊙(BTtop_data_jB)]G。

具体的，在逆变换过程中，为了减少乘法运算，如正变换过程类似的，也可以将乘法运算结果的变换运算拆解为求和运算，并根据求和运算确定运算结果。

以对第一乘法运算结果进行逆变换运算的拆分为例，可以基于下式对第一乘法运算结果进行变换：

ApA^T

其中，A^T、A是逆变换矩阵，p是第一乘法运算结果。在将该变换过程拆解为求和运算时，可以将第一乘法运算结果拆解为多个子张量；再根据逆变换矩阵对多个子张量进行变换运算并求和，得到运算结果。

具体的，多个子张量之和为乘法运算结果，多个子张量的个数与乘法运算结果中非0 元素的个数相同，每个子张量中有单个非0元素，且在子张量中的非0元素与在乘法运算结果中对应位置的非0元素相同。

也就是说，第一乘法运算结果p为：

可将第一乘法运算结果拆分为16个子张量，分别为：

实际应用时，将乘法运算结果拆分为结果子张量之后，可以使用逆变换矩阵对每个结果子张量进行变换，再将结果子张量的变换结果相加，得到运算结果。

例如，对于其中的一个结果子张量，可以基于下式对其进行转换：

针对每个子张量，都可以进行如上的变换，再将各个子张量的变换结果相加，得到运算结果。

为了进一步的减少运算过程中的乘法运算，在对子张量进行变换运算并求和，得到运算结果时，还可以：

根据逆变换矩阵、元子张量及其对应的非0元素，确定结果子张量的变换结果；

对子张量的变换结果进行求和，得到运算结果。

与对前述的正向输入特征数据的变换过程类似，可以识别第一乘法运算结果的子张量中的非0元素，并将非0元素对应的位置设置为1，得到元子张量，例如对于子张量

来说，对应的元子张量是：

针对每个子张量都可以确定其对应的元子张量。

在对子张量进行变换时，可以根据逆变换矩阵、元子张量及其对应的非0元素，确定运算结果。

具体可以对元子张量左边乘以逆变换矩阵中的左乘矩阵、右边乘以逆变换矩阵中的右乘矩阵，并将结果与元子张量对应的非0元素相乘，得到子张量的变换结果；其中，元子张量中的左乘矩阵和右乘矩阵都是由子张量的规模确定的。

例如对于

来说，可以转换为

进一步的，由于根据运算结果的尺寸可以确定A^T、A，并且，元子张量也是预先可以根据运算结果的尺寸确定的。因此，还可以预先根据A^T、A、结果元子张量确定与乘法运算结果中每个元素位置对应的替换矩阵。

例如，对于第一行第一列的元素位置，替换矩阵为：

基于上式可以得知，子张量

的变换结果变为：

p₀₀×D″₀₀

针对第一乘法运算结果中每个元素位置都可以确定对应的替换矩阵，可以在对第一乘法运算结果进行变换时，直接根据该结果或最终运算结果尺寸，确定对应的替换矩阵集合，再根据替换矩阵集合确定运算结果。

基于上式可以得到运算结果，即权值差可表示为：

ApA^T＝p₀₀×D″₀₀+p₀₁×D″₀₁…p₃₃×D″₃₃

也就是说，可以确定与各乘法运算中包括的每个元素对应的替换矩阵，从而可以根据这些替换矩阵对逆变换运算拆解为求和运算，并根据求和运算确定运算结果。

其中，具体的拆解方式与对特征变换运算的拆解方式类似，进而通过更少的乘法方式就能够得到卷积运算结果。而对第二乘法运算结果以及第三乘法运算结果的逆变换运算的处理过程与前述的对第一乘法运算结果的逆变换运算进行处理的过程类似，再此不进行赘述。

本实施例提供的方法用于进行卷积运算，该方法由设置有本实施例提供的方法的设备执行，该设备通常以硬件和/或软件的方式来实现。

在本申请所基于的对神经网络进行训练的过程中，由于采用了前述的Winograd算法，其训练所需的训练时间将大大缩短。特别的，由于训练的特征数据的数据量较大，在本申请中，对于获取的特征数据的规模将与神经网络输出的运算结果的规模，以及神经网络中权值数据的规模相关联。也就是说，在对神经网络进行训练的运算获取特征数据的过程中，基于训练的运算任务，可将训练数据进行拆解，以将规模较大的多维训练数据拆分为若干固定规模的二维的特征数据，针对每一特征数据，运算装置可利用前述提供的方法进行训练运算。

当然，对于运算装置如何从存储有多维训练数据的云端服务器中获取二维的特征数据，则可采用基于存储地址进行数据精准读取的方式，即基云端服务器中的存储地址位，读取存储在特定存储地址位的数据，并进行处理。其中，对于处理所需要的特征数据的存储地址，运算装置可从训练指令中获取，即训练指令中可携带有本次运算处理所需要的特征数据的存储地址，以供运算装置基于该存储地址从云端服务器中读取特征数据。

特别的，在其中一种可选实现方式中，运算装置在进行上述的正向传播处理和反向传播处理过程时的至少一次卷积运算将采用Winograd算法。

具体来说，由于神经网络中包括有n层，其每一层均将存在有大量卷积运算，其中的部分或全部卷积运算可采用该Winograd算法，当仅有部分卷积运算采用Winograd 算法时，该部分卷积运算以外的其他卷积运算可采用通常的卷积运算处理。另外，参与运算的数据格式也不限，例如，可以使用浮点运算的算法进行各步骤的运算，也可以将浮点数转换为定点数后进行各步骤的运算。

进一步的，当运算装置仅对部分卷积运算采用Winograd算法进行运算处理时，运算装置接收的训练指令中还将包括有选取的目标层，运算装置将基于选取的目标层，采用Winograd算法对目标层的卷积运算进行处理。其中，该目标层是采用预设规则选取获得的。

其中，预设规则具体可取决于训练数据的复杂程度，即训练数据被拆分为特征数据的拆分程度。

具体的，若训练数据的复杂程度较大，其数据规模也相对较大，为了进行卷积处理，需要对训练数据进行拆分，并获得数量巨大的拆分后的特征数据。

此时，若采用传统的卷积运算处理方式对数量巨大的拆分后的特征数据进行卷积运算，其运算的处理时间将会很长。相应的，若此时对数量巨大的拆分后的特征数据采用Winograd算法进行卷积运算，相对于传统运算处理方式每一次的运算的处理时间将得到缩短，而由于特征数据的数量巨大，使得整个训练数据的运算效率的提升也将呈现几何倍增长，对于神经网络训练过程的运算效率提高的效果显著。

因此，在可选实施方式中，可在对训练数据进行拆分后，先确定拆分后的特征数据的数量，随后基于特征数据的数量选取采用Winograd算法进行卷积运算的一个或多个目标层。其中，在选择过程中，可仅对一个或多个目标层的正向传播处理过程中的卷积运算采用Winograd算法进行处理，也可对一个或多个目标层的反向传播处理过程中的卷积运算进行采用Winograd算法进行处理，或者，可对一个或多个目标层的正向传播处理过程以及反向传播过程中的卷积运算进行采用Winograd算法进行处理。

进一步的，上述运算方法获得的神经网络可用于各场景，此处以人脸识别模型进行推理为例进行说明：

步骤501、接收识别指令，获取人脸样本的特征数据；

步骤502、将所述人脸样本的特征数据作为训练获得的所述人脸识别模型的输入，通过训练得到的人脸识别模型进行神经网络处理；

步骤503、将所述人脸识别模型输出的结果作为人脸识别结果。

本申请提供的信息的运算方法及相关产品，通过在接收训练指令和获取特征数据之后，采用Winograd算法以利用特征数据对神经网络中的权值数据进行训练，获得训练后的神经网络，与现有技术相比，本申请利用了Winograd算法中将大量矩阵乘法运算转换为矩阵加法运算的特点，有效提高了对于神经网络的训练数据进行处理的运算效率，降低了训练过程所占用的运算资源。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

进一步需要说明的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

第二方面，图7为本申请提供的一种Winograd卷积运算装置的结构示意图，如图7所示的，本申请的Winograd卷积运算装置，包括：数据接收模块10、变换模块 20、对位乘模块30以及权值更新模块40；

其中，

数据接收模块10，用于获取对神经网络进行训练的正向输入特征数据；

变换模块20，用于在训练模块基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将所述神经网络中第j层的反向输入梯度以及第j层的正向输入特征数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及第j层的正向输入特征数据正变换运算的变换结果；

对位乘模块30，用于对第j层的反向输入梯度正变换运算的变换结果和第j层的正向输入特征数据正变换运算的变换结果执行对位乘法运算，获得第一乘法运算结果；

变换模块20，还用于将第一乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的权值差；

权值更新模块40，用于根据所述第j层的权值差完成所述神经网络的训练。

可选的，变换模块20，还用于在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将第j层的反向输入梯度以及第j层的权值数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及所述第j层的权值数据正变换运算的变换结果；

对位乘模块30，还用于对所述第j层的反向输入梯度正变换运算的变换结果和所述第j层的权值数据正变换运算的变换结果执行对位乘法运算，获得第二乘法运算结果；

变换模块20，还用于将第二乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的反向输出梯度。

可选的，变换模块20，还用于基于所述预配置的Winograd算法，分别将第i层的正向输入特征数据以及第i层的权值数据的正变换运算拆解为求和运算，以获取所述第i层的正向输入特征数据正变换运算的变换结果，以及所述第i层的权值数据正变换运算的变换结果；

对位乘模块30，还用于对所述第i层的正向输入特征数据正变换运算的变换结果和所述第i层的权值数据正变换运算的变换结果执行对位乘法运算，获得第三乘法运算结果；

变换模块20，还用于对第三乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第i层的正向输出特征数据。

可选的，变换模块20具体用于：将正变换运算或逆变换运算拆解为求和运算的处理方式为：将目标数据拆解为与所述目标数据对应的多个子张量，并对所述多个子张量进行变换运算并求和，根据求和运算的结果得到所述目标数据对应的变换结果；所述目标数据包括如下一种：反向输入梯度、正向输入特征数据、权值数据、第一乘法运算结果、第二乘法运算结果和第三乘法运算结果。

可选的，所述目标数据对应的多个子张量之和为所述目标数据；所述多个子张量的个数与所述目标数据中非0元素的个数相同，每个所述子张量中有单个非0元素，且在所述子张量中的非0元素与在所述目标数据中对应位置的非0元素相同。

可选的，变换模块20具体用于：确定目标数据的各子张量对应的元子张量，其中，所述元子张量是将所述子张量的非0元素置为1的张量；获取各子张量对应的元子张量的变换结果；将所述子张量中非0的元素值作为系数乘以对应的元子张量的变换结果，得到所述子张量的变换结果；将多个子张量的变换结果相加得到所述根据求和运算的结果得到对所述多个子张量进行变换运算并求和，根据求和运算的结果得到对所述目标数据进行变换运算的变换结果。

可选的，变换模块20具体用于：对于每一个所述子张量，将所述子张量对应的元子张量左边乘以左乘矩阵、右边乘以右乘矩阵，得到所述元子张量的变换结果，其中，所述左乘矩阵和所述右乘矩阵都是由所述子张量的规模以及变换类型确定的，其中所述变换类型包括正变换运算的变换类型和逆变换运算的变换类型。

应该理解，上述的装置实施例仅是示意性的，本公开的装置还可通过其它的方式实现。例如，上述实施例中所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

另外，若无特别说明，在本公开各个实施例中的各功能单元/模块可以集成在一个单元/模块中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元/模块如果以硬件的形式实现时，该硬件可以是数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于晶体管，忆阻器等等。若无特别说明，所述人工智能处理器可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明，所述存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM (DynamicRandom Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube) 等等。

所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在一种可能的实现方式中，还公开了一种人工智能芯片，其包括了上述Winograd卷积运算装置。

在一种可能的实现方式中，还公开了一种板卡，其包括存储器件、接口装置和控制器件以及上述人工智能芯片；其中，所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；所述存储器件，用于存储数据；所述接口装置，用于实现所述人工智能芯片与外部设备之间的数据传输；所述控制器件，用于对所述人工智能芯片的状态进行监控。

图8示出根据本公开实施例的板卡的结构框图，参阅图8，上述板卡除了包括上述芯片 389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392；

所述存储器件390与所述人工智能芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述人工智能芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述人工智能芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用 DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述人工智能芯片电连接。所述接口装置用于实现所述人工智能芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。优选的，当采用PCIE 3.0 X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本公开并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述人工智能芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述人工智能芯片电连接。所述控制器件用于对所述人工智能芯片的状态进行监控。具体的，所述人工智能芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述人工智能芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述人工智能芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述人工智能芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一种可能的实现方式中，公开了一种电子设备，其包括了上述人工智能芯片。电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、 B超仪和/或心电图仪。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

依据以下条款可更好地理解前述内容：

A1、一种Winograd卷积运算方法，所述方法包括：

根据所述第j层的权值差完成所述神经网络的训练。

A2、根据条款A1所述的方法，所述方法还包括：

在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将第j 层的反向输入梯度以及第j层的权值数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及所述第j层的权值数据正变换运算的变换结果；

对所述第j层的反向输入梯度正变换运算的变换结果和所述第j层的权值数据正变换运算的变换结果执行对位乘法运算，获得第二乘法运算结果；

将第二乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的反向输出梯度。

A3、根据条款A1或A2所述的方法，所述方法还包括：

基于所述预配置的Winograd算法，分别将第i层的正向输入特征数据以及第i 层的权值数据的正变换运算拆解为求和运算，以获取所述第i层的正向输入特征数据正变换运算的变换结果，以及所述第i层的权值数据正变换运算的变换结果；

对所述第i层的正向输入特征数据正变换运算的变换结果和所述第i层的权值数据正变换运算的变换结果执行对位乘法运算，获得第三乘法运算结果；

对第三乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第i层的正向输出特征数据。

A4、根据条款A1至A3任一项所述的方法，所述方法还包括：

将正变换运算或逆变换运算拆解为求和运算的处理方式为：将目标数据拆解为与所述目标数据对应的多个子张量，并对所述多个子张量进行变换运算并求和，根据求和运算的结果得到所述目标数据对应的变换结果；

所述目标数据包括如下一种：反向输入梯度、正向输入特征数据、权值数据、第一乘法运算结果、第二乘法运算结果和第三乘法运算结果。

A5、根据条款A4所述的方法，所述目标数据对应的多个子张量之和为所述目标数据；

所述多个子张量的个数与所述目标数据中非0元素的个数相同，每个所述子张量中有单个非0元素，且在所述子张量中的非0元素与在所述目标数据中对应位置的非0元素相同。

A6、根据条款A4或A5所述的方法，所述对所述多个子张量进行变换运算并求和，根据求和运算的结果得到所述目标数据对应的变换结果，包括：

确定目标数据的各子张量对应的元子张量，其中，所述元子张量是将所述子张量的非 0元素置为1的张量；

获取各子张量对应的元子张量的变换结果；

将所述子张量中非0的元素值作为系数乘以对应的元子张量的变换结果，得到所述子张量的变换结果；

将多个子张量的变换结果相加得到所述根据求和运算的结果得到对所述多个子张量进行变换运算并求和，根据求和运算的结果得到对所述目标数据进行变换运算的变换结果。

A7、根据条款A6所述的方法，所所述获取各子张量对应的元子张量的变换结果，包括：

对于每一个所述子张量，将所述子张量对应的元子张量左边乘以左乘矩阵、右边乘以右乘矩阵，得到所述元子张量的变换结果，其中，所述左乘矩阵和所述右乘矩阵都是由所述子张量的规模以及变换类型确定的，其中所述变换类型包括正变换运算的变换类型和逆变换运算的变换类型。

A8、一种Winograd卷积运算装置，包括：

A9、根据条款A8所述的装置，

变换模块，还用于在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将第j层的反向输入梯度以及第j层的权值数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及所述第j层的权值数据正变换运算的变换结果；

对位乘模块，还用于对所述第j层的反向输入梯度正变换运算的变换结果和所述第j层的权值数据正变换运算的变换结果执行对位乘法运算，获得第二乘法运算结果；

变换模块，还用于将第二乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j层的反向输出梯度。

A10、根据条款A8或A9所述的装置，

变换模块，还用于基于所述预配置的Winograd算法，分别将第i层的正向输入特征数据以及第i层的权值数据的正变换运算拆解为求和运算，以获取所述第i层的正向输入特征数据正变换运算的变换结果，以及所述第i层的权值数据正变换运算的变换结果；

对位乘模块，还用于对所述第i层的正向输入特征数据正变换运算的变换结果和所述第i层的权值数据正变换运算的变换结果执行对位乘法运算，获得第三乘法运算结果；

变换模块，还用于对第三乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第i层的正向输出特征数据。

A11、根据条款A8至A10任一项所述的装置，所述变换模块具体用于：

A12、根据条款A11所述的装置，所述目标数据对应的多个子张量之和为所述目标数据；

A13、根据条款A10或A11所述的装置，所述变换模块具体用于：

获取各子张量对应的元子张量的变换结果；

A14、根据条款A13所述的装置，所述变换模块具体用于：

A15、一种人工智能芯片，所述芯片包括如条款A6至A10中任意一项所述的Winograd 卷积运算装置。

A16、一种电子设备，所述电子设备包括如条款A15所述的人工智能芯片。

A17、一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及如条款A15所述的人工智能芯片；

所述存储器件，用于存储数据；

所述控制器件，用于对所述人工智能芯片的状态进行监控。

A18、根据条款A17所述的板卡，所述存储器件包括：多组存储单元，每一组所述存储单元与所述人工智能芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述芯片包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置为：标准PCIE接口。

本申请提供的Winograd运算方法及相关产品，通过在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将所述神经网络中第j层的反向输入梯度以及第j层的正向输入特征数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及第j层的正向输入特征数据正变换运算的变换结果；对第j层的反向输入梯度正变换运算的变换结果和第j层的正向输入特征数据正变换运算的变换结果执行对位乘法运算，获得第一乘法运算结果；将第一乘法运算结果的逆变换运算拆解为求和运算，并将求和运算所得结果作为第j 层的权值差；根据所述第j层的权值差完成所述神经网络的训练。与现有技术相比，本申请利用了Winograd算法中将大量矩阵乘法运算转换为矩阵加法运算的特点，有效提高了对于神经网络的训练数据进行处理的运算效率，降低了训练过程所占用的运算资源。

以上对本公开实施例进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明仅用于帮助理解本公开的方法及其核心思想。同时，本领域技术人员依据本公开的思想，基于本公开的具体实施方式及应用范围上做出的改变或变形之处，都属于本公开保护的范围。综上所述，本说明书内容不应理解为对本公开的限制。

Claims

1.一种Winograd卷积运算方法，其特征在于，所述方法包括：

根据所述第j层的权值差完成所述神经网络的训练。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在基于预配置的Winograd卷积算法对神经网络进行训练的过程中，分别将第j层的反向输入梯度以及第j层的权值数据的正变换运算拆解为求和运算，以基于求和运算获取所述第j层的反向输入梯度正变换运算的变换结果，以及所述第j层的权值数据正变换运算的变换结果；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

基于所述预配置的Winograd算法，分别将第i层的正向输入特征数据以及第i层的权值数据的正变换运算拆解为求和运算，以获取所述第i层的正向输入特征数据正变换运算的变换结果，以及所述第i层的权值数据正变换运算的变换结果；

4.根据权利要求1-3任一项所述的方法，其特征在于，将正变换运算或逆变换运算拆解为求和运算的处理方式为：将目标数据拆解为与所述目标数据对应的多个子张量，并对所述多个子张量进行变换运算并求和，根据求和运算的结果得到所述目标数据对应的变换结果；

5.根据权利要求4所述的方法，其特征在于，所述目标数据对应的多个子张量之和为所述目标数据；

6.根据权利要求4或5所述的方法，其特征在于，所述对所述多个子张量进行变换运算并求和，根据求和运算的结果得到所述目标数据对应的变换结果，包括：

确定目标数据的各子张量对应的元子张量，其中，所述元子张量是将所述子张量的非0元素置为1的张量；

获取各子张量对应的元子张量的变换结果；

7.根据权利要求6所述的方法，其特征在于，所述获取各子张量对应的元子张量的变换结果，包括：

8.一种Winograd卷积运算装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，

10.根据权利要求8或9所述的装置，其特征在于，

11.根据权利要求8-10任一项所述的装置，其特征在于，所述变换模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述目标数据对应的多个子张量之和为所述目标数据；

13.根据权利要求10或11所述的装置，其特征在于，所述变换模块具体用于：

获取各子张量对应的元子张量的变换结果；

14.根据权利要求13所述的装置，其特征在于，所述变换模块具体用于：

15.一种人工智能芯片，其特征在于，所述芯片包括如权利要求6-10中任意一项所述的Winograd卷积运算装置。

16.一种电子设备，其特征在于，所述电子设备包括如权利要求15所述的人工智能芯片。

17.一种板卡，其特征在于，所述板卡包括：存储器件、接口装置和控制器件以及如权利要求15所述的人工智能芯片；

所述存储器件，用于存储数据；

所述控制器件，用于对所述人工智能芯片的状态进行监控。

18.根据权利要求17所述的板卡，其特征在于，

所述存储器件包括：多组存储单元，每一组所述存储单元与所述人工智能芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述接口装置为：标准PCIE接口。