CN110647975A

CN110647975A - 一种数据处理方法、装置、设备以及介质

Info

Publication number: CN110647975A
Application number: CN201810680413.7A
Authority: CN
Inventors: 李文青; 章隆兵; 肖俊华; 王剑
Original assignee: Loongson Technology Corp Ltd
Current assignee: Loongson Technology Corp Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2020-01-03
Anticipated expiration: 2038-06-27
Also published as: CN110647975B

Abstract

本发明提供了一种数据处理方法、装置、设备以及介质，涉及计算机计算领域，该方法包括：在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。本发明能够解决将卷积计算转换为矩阵乘计算所需的矩阵重排带来的额外时间和存储空间的开销的问题，提高计算机的计算效率。

Description

一种数据处理方法、装置、设备以及介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理方法、一种数据处理装置、一种电子设备以及一种存储介质。

背景技术

随着深度学习技术的快速发展，神经网络模型的应用范围越来越广泛，如应用在图像处理、视频、语音、文本等领域中，给人们的生活、学习以及工作带来了极大的便利。

卷积神经网络(Convolutional Neural Networks，CNNs)是深度学习中的一种重要且常用的神经网络模型，可以应用在诸如图像识别、视频监控等领域中。例如，在卷积神经网络应用在图像识别的情况下，可以将一张图片的数值输入到卷积神经网络中，以通过该卷积神经网络对该图片的数据进行判断、识别，得到图片识别结果。在具体实现中，卷积神经网络通常使用前馈计算做识别，使用反馈计算做训练，如在离线情况下进行反馈计算训练出想要得到的模型参数，再将这个训练好的模型投入实时使用。卷积神经网络的绝大多数时间都用在卷积计算中，如在前馈计算中耗费在卷积层的卷积计算时间占总时间的90.7％。

具体的，现有计算机通常是将卷积神经网络中的卷积计算转化为矩阵运算，以提高运算速度。具体的，在进行卷积计算时，先将要进行卷积运算的数字重新排列，使其可以进行矩阵乘运算，在矩阵乘运算完成后再将结果重新排列为卷积计算结束应有的结果序列。但是，对矩阵的重排序需要时间来进行控制、寻址和元素搬运，增加了时间和存储空间的消耗，影响计算机的计算效率。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理方法，以提高计算机的计算效率。

相应的，本发明实施例还提供了一种数据处理装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种数据处理方法，包括：

在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；

依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

可选地，所述流水线包含至少两个输入端，所述方法还包括：

基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量；

基于所述硬件资源所包含的处理单元总数量、所述输入端数量以及所述处理单元数量，确定至少一条流水线。

可选地，所述基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量，包括：

基于所述卷积核的高度，确定每条流水线的输入端数量；

基于所述卷积核的宽度，确定每个输入端连接的处理单元对应的处理单元数量。

可选地，所述将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，包括：

通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素；

通过所述每一条流水线中的各处理单元，对输入的矩阵元素进行卷积计算，得到每一条流水线对应的输出特征值。

可选地，所述处理单元包含乘法器和加法器，所述确定至少一条流水线之后，还包括：针对每一条流水线中包含的各处理单元，依据所述卷积核中的各卷积核元素，确定各处理单元中包含的乘法器对应的权重数据；

其中，所述通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素，包括：针对每一个输入端，将所述输入端接收到的矩阵元素传输给与所述输入端连接的处理单元中所包含的乘法器，所述乘法器用于依据所述矩阵元素和所述权重数据计算出乘积数据；

所述对输入的矩阵元素进行卷积计算，得到每一流水线对应的输出特征值，包括：分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值。

可选地，还包括：基于所述卷积核的高度，从所述输入矩阵中确定输入到每一条流水线中的相邻行矩阵元素数量；基于预先设定的卷积计算规则，确定输入到每一条流水线中的所述相邻行矩阵元素的首行行号；根据所述输入到每一条流水线中的相邻行矩阵元素数量和所述相邻行矩阵元素的首行行号，确定输入到所述每一条流水线中的相邻行矩阵元素的末行行号。其中，所述通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素，包括：针对每一条流水线，基于确定的相邻行矩阵元素的首行行号和末行行号，依次将确定的相邻行矩阵元素中的各行矩阵元素，分别发送到对应的输入端。

可选地，流水线的各个处理单元串联连接；分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值，包括：当所述处理单元为流水线中的第一个处理单元时，通过所述第一个处理单元中包含的加法器将所述第一个处理单元中包含的乘法器计算得到的乘积数据和预设的偏置数据进行加法运算，得到相加结果；将所述相加结果传输至所述流水线中与所述第一个处理单元相连接的下一个处理单元；当所述处理单元为流水线中的中间处理单元时，通过所述中间处理单元中包含的加法器将所述中间处理单元中包含的乘法器计算得到的乘积数据和接收到的偏置数据进行加法运算，得到相加结果，将所述相加结果传输至所述流水线中与所述中间处理单元相连接的下一个处理单元，其中，所述中间处理单元为所述流水线中除第一个处理单元和最后一个处理单元之外的处理单元，所述接收到的偏置数据为所述流水线中与所述中间处理单元相连接的上一个处理单元输出的相加结果；当所述处理单元为流水线中的最后一个处理单元时，通过所述最后一个处理单元中包含的加法器将所述最后一个处理单元中包含的乘法器计算得到的乘积数据和所述最后一个处理单元接收到的偏置数据进行加法运算，得到所述流水线对应的输出特征值。

可选地，所述每个处理单元还包括与所述乘法器相连接的第一寄存器和第二寄存器，以及与所述加法器连接的第三寄存器；所述方法还包括：分别将每一个处理单元对应的权重数据存储至所述权重数据对应的处理单元中包含的第一寄存器中；分别将输入每一个处理单元的矩阵元素存储至所述接收所述矩阵元素的处理单元中包含的第二寄存器中；将流水线中第一个处理单元对应的预设的偏置数据存储至所述第一处理单元中包含的第三存储器中；和/或，将流水线中最后一个处理单元接收到的偏置数据存储至所述最后一个处理单元中包含的第三存储器中；和/或，将流水线中中间处理单元接收到的偏置数据存储至所述中间处理单元中包含的第三寄存器中。

本发明实施例还公开了一种数据处理装置，包括：

矩阵元素输入模块，用于在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；

卷积计算结果反馈模块，用于依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

可选地，所述流水线包含至少两个输入端，所述装置还包括：

流水线确定模块，用于基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量；以及，基于所述硬件资源所包含的处理单元总数量、所述输入端数量以及所述处理单元数量，确定至少一条流水线。

可选地，所述流水线确定模块包括：

输入端数量确定子模块，用于基于所述卷积核的高度，确定每条流水线的输入端数量；

处理单元数量确定子模块，用于基于所述卷积核的宽度，确定每个输入端连接的处理单元对应的处理单元数量。

可选地，所述矩阵元素输入模块包括：

输入子模块，用于通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素；

计算子模块，用于通过所述每一条流水线中的各处理单元，对输入的矩阵元素进行卷积计算，得到每一条流水线对应的输出特征值。

可选地，所述处理单元包含乘法器和加法器，所述装置还包括：权重确定模块。其中，所述权重确定模块，用于针对每一条流水线包含的各处理单元，依据所述卷积核中的各卷积核元素，确定各处理单元中包含的乘法器对应的权重数据；

所述输入子模块，具体用于针对每一个输入端，将所述输入端接收到的矩阵元素传输给与所述输入端连接的处理单元中所包含的乘法器；

所述乘法器，用于依据所述矩阵元素和所述权重数据计算出乘积数据；

所述计算子模块，具体用于分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值。

本发明实施例还公开了一种电子设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本发明实施例中一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例中的流水线的处理单元为依据卷积神经网络中的卷积核确定的，通过流水线的处理单元直接对卷积神经网络中的卷积计算进行处理，不需要进行矩阵的转换，解决了将卷积计算转换为矩阵乘计算所需的矩阵重排带来的额外时间和存储空间的开销的问题，提高计算机的计算效率。

附图说明

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明一个示例中的一种二维卷子核的示意图；

图3是本发明一个示例中的一条流水线的结构示意图；

图4A是本发明一个示例中的一个输入矩阵的示意图；

图4B是本发明一个示例中的流水线状态的示意图；

图5是本发明一个示例中的采用三条流水线并行计算卷积的示意图；

图6是本发明的一种数据处理装置实施例的结构框图；

图7是根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着科学技术的快速发展，卷积神经网络的应用范围越来越广泛，如卷积神经网络的卷积计算广泛应用于信号处理、统计学、概率论、声学等领域。

卷积神经网络的基本组成层可以包括有卷积层(Convolution layer)、池化层(Pooling layer)、激活层(Activation layer)和全连接层(Full connection layer)。其中，卷积、池化、激活可以合为一层的操作，用于完成卷积神经网络的卷积计算。

在现有计算机体系架构中，通用处理器通常将卷积神经网络中的卷积计算转换为矩阵乘运算，以提高卷积计算效率。但是，将卷积计算转换为矩阵乘运算时，需要对卷积神经网络的输入矩阵中的矩阵元素进行重排序，增加时间消耗。此外，输入矩阵中每个矩阵元素在转换后的矩阵重复出现的次数比较多，带来大量的冗余数据，增加存储空间资源的消耗，影响卷积计算效率。

本发明实施例的核心构思之一在于，依据卷积神经网络的卷积核(ConvolutionKernel)确定流水线(Pipeline)的处理单元(Processor Element，PE)，以通过流水线的处理单元直接对卷积神经网络中的卷积计算进行处理，不需要进行矩阵的转换，从而提高计算机的计算效率。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定。

在具体实现中，可以通过应用程序将需要进行卷积计算的输入矩阵输入到计算机中，以通过该计算机对输入矩阵进行卷积计算处理。需要说明的是，输入矩阵中的矩阵元素可以用于表征需要进行卷积计算的数据。计算机在接收到应用程序的输入矩阵后，可以将该输入矩阵中的矩阵元素输入到为卷积计算设计专用的流水线，以通过该流水线中的处理单元直接进行卷积计算，得到对应的输出特征值。

本发明实施例中，可以根据预先为卷积神经网络设置的卷积核大小设计合适的流水线，以通过该流水线中的处理单元对卷积计算进行处理。其中，卷积核大小可以依据卷积神经网络对应预设的卷积算法进行设置，本发明实施例对此不作限制。具体的，可以根据卷积核的尺寸大小确定一条流水线所需要包含的输入端对应的输入端数量以及每一个输入端连接的处理单元对应的处理单元数量，随后可按照该一条流水线所需要包含的输入端对应的输入端数量以及每一个输入端连接的处理单元对应的处理单元数量，采用预先设置的硬件资源中的处理单元组成至少一条流水线。每条流水线中所包含的处理单元的数量为一条流水线所需要包含的输入端对应的输入端数量与每一个输入端连接的处理单元对应的处理单元数量之间的乘积。

在具体实现中，硬件资源中所包含的处理单元是有限的。因此，在确定出一条流水线所需要包含的输入端对应的输入端数量以及每个输入端连接的处理单元对应的处理单元数量后，即在确定出每条流水线所包含的处理单元的数量后，可以根据每条流水线所包含的处理单元的数量和硬件资源中所包含的处理单元总数量确定出一条或多条流水线。可选的，上述数据处理方法还可以包括依据硬件资源和卷积神经网络中的卷积核，确定至少一条流水线的处理单元。其中，每条流水线可以包括一个或多个输入端，每个输入端可以连接一个或多个处理单元。

在本发明发的一个可选实施例中，还可以包括：基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的的处理单元数量；基于所述硬件资源所包含的处理单元总数量、确定的输入端数量以及处理单元数量，确定至少一条流水线。其中，每条流水线可以包括依次连接的至少两个处理单元，每个处理单元可以包括乘法器和加法器。

具体而言，本发明实施例可以基于卷积核的尺寸大小确定该卷积核中所包含的卷积核元素的数量，并且可以根据卷积核元素的尺寸确定出每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量，以基于输入端数量和每个输入端连接的处理单元对应的处理单元数量确定出每条流水线所包含的处理单元的数量，从而可以按照每条流水线所包含的处理单元的数量确定出一条流水线所包含的处理单元，即按照输入端数量和每个输入端连接的处理单元对应的处理单元数量，采用硬件资源中所包含的处理单元构建一条或多条流水线，从而可以将卷积核中所包含的各卷积核元素分别输入到每一条流水线中对应的处理单元中，使得每一条流水线可以依据该卷积核的卷积核元素进行卷积计算。优选的，一条流水线可以包含至少两个输入端，从而可以通过流水线所包含的至少两个输入端同时向同一条流水线中的处理单元输入数据，提高数据处理效率。

作为发明的一个示例，可以依据卷积核的高度确定出每条流水线的输入端数量，如在卷积核的高度为1时，可以确定每条流水线包含1个输入端，即每条流水线的输入端数量为1；又如，在卷积核的高度为2时，可以确定每条流水线包含2个输入端，即每条流水线的输入端数量为2，等等。另外，可以依据卷积核的宽度确定出每个输入端连接的处理单元对应的处理单元数量，如在卷积核的宽度为1时，可以确定每个输入端连接1个处理单元，即每个输入端连接的处理单元对应的处理单元数量为1；又如，在卷积核的宽度为2时，可以确定每个输入端连接2个处理单元，即每个输入端连接的处理单元对应的处理单元数量为2，等等。

本发明实施实施例中，可选地，上述基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量，具体可以包括：基于所述卷积核的高度，确定每条流水线的输入端数量；基于所述卷积核的宽度，确定每个输入端连接的处理单元对应的处理单元数量。在具体实现中，可以将卷积核中所包含的卷积核元素存储到一个矩阵中，并且可以将该矩阵的行数确定为该卷积核的高度，以及可以将该矩阵的列数作为该卷积核的宽度；随后，可以基于该矩阵的行数确定出每条流水线所包含的输入端数量，同时可以基于矩阵的列数确定出每个输入端所连接的处理单元对应的处理单元数量，进而可以基于输入端数量以及出每个输入端所连接的处理单元对应的处理单元数量确定出每条流水线所包含的处理单元的数量。需要说的是，同一条流水线中所包含的各处理单元可以依次连接，构成一条流水线。例如，在卷积核为一个3行3列的矩阵时，即卷积核的尺寸大小为9，针对该卷积核可以确定一条流水线所包含的处理单元的数量为9，即9个处理单元可以组成一条流水线，且该流水线包含3个输入端，每个输入端连接3个处理单元；又如，在卷积核为一个2行2列的矩阵时，即在卷积核包含有4个卷积元素时，基于该卷积核可以确定一条流水线所包含的处理单元的数量为4，且该流水线包含2个输入端，每个输入端连接2个处理单元，等等。当然，卷积核还可以是其他大小的矩阵，如可以是5行5列的矩阵、7行7列的矩阵等等，本发明实施例对此不作具体限制。

在本发明的一个可选实施例中，上述将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，可以包括：通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素；通过所述每一条流水线中的各处理单元，对输入的矩阵元素进行卷积计算，得到每一条流水线对应的输出特征值。具体的，本发明实施例可以针对每一条流水线的处理单元，依据所述卷积核的尺寸，分别通过每个处理单元所连接的输入端输入对应的矩阵元素；随后可以在同一条流水线中，通过该流水线中的各处理单元所包含的乘法器和加法器对输入的矩阵元素进行卷积计算，得到该流水线对应的输出特征值。

具体而言，可以基于卷积核的高度(即卷积核的行数)确定出输入到每一条流水线中的相邻行数量，随后可以基于预先设定的卷积计算规则，按照该相邻行数量将输入矩阵中相邻行对应的矩阵元素输入到流水线中，如在确定出输入矩阵当前所需要计算的首行矩阵元素后，可以基于当前所需要计算的首行矩阵元素的行号(即相邻行矩阵元素的首行行号)和相邻行数量，确定出当前所需要计算的末行矩阵元素的行号(相邻行矩阵元素的末行行号)，进而可以依据确定出的首行矩阵元素的行号和末行矩阵元素的行号，通过流水线中所包含的输入端，分别将当前所需要计算的各矩阵元素输入到对应的处理单元中，以通过流水线中的各处理单元对输入的矩阵元素进行卷积计算。

在一种可选实施方式中，该数据处理方法还可包括：基于所述卷积核的高度，从所述输入矩阵中确定输入到每一条流水线中的相邻行矩阵元素数量；基于预先设定的卷积计算规则，确定输入到每一条流水线中的所述相邻行矩阵元素的首行行号；根据所述输入到每一条流水线中的相邻行矩阵元素数量和所述相邻行矩阵元素的首行行号，确定输入到所述每一条流水线中的相邻行矩阵元素的末行行号。其中，上述通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素，还可以包括：针对每一条流水线，基于确定的相邻行矩阵元素的首行行号和末行行号，依次将确定的相邻行矩阵元素中的各行矩阵元素，分别发送到对应的输入端。随后，可以针对每一个输入端，执行将所述输入端接收到的矩阵元素传输给与所述输入端连接的处理单元中所包含的乘法器的步骤。

例如，在卷积核的高度为3时，可以将输入矩阵中每相邻3行的矩阵元素输入到同一条流水线的处理单元中，如在硬件资源充足的情况下，即在基于硬件资源中所包含的处理单元确定出多条流水线后，可以将输入矩阵中的第一行、第二行以及第三行的矩阵元素输入到第一条流水线中，以采用第一条流水线中的处理单元对第一行、第二行和第三行的矩阵元素进行卷积计算；同时，可以将输入矩阵中的第二行、第三行以及第四行的矩阵元素输入到第二条流水线中，以采用第二条流水线中的处理单元对第二行、第三行和第四行的矩阵元素进行卷积计算；以及，可以将输入矩阵中的第三行、第四行以及第五行的矩阵元素输入到第三条流水线中，以采用第三条流水线中的处理单元对第三行、第四行和第五行的矩阵元素进行卷积计算，即采用三条流水线对输入矩阵中的矩阵元素进行并行的卷积计算，提高卷积计算效率；又如，在基于硬件资源中所包含的处理单元确定出一条流水线的情况下，在采用该流水线计算出输入矩阵中的第一行、第二行以及第三行的矩阵元对应的输出特征值后，可以再采用该流水线计算出输入矩阵中的第二行第三行以及第四行的矩阵元对应的输出特征值……如此类推，直到采用该流水线计算出该输入矩阵对应的所有输出特征值。

在具体实现中，同一条流水线中的各处理单元可以通过加法器进行连接。一个处理单元可以包括有乘法器和加法器。乘法器可以与流水线的输入端相连接，可以通过输入端接收输入矩阵中的矩阵元素，并且可以将处理单元接收到的矩阵元素与相应预设的卷积核元素相乘，以及相乘后得到乘积数据传输给加法器，从而可以通过这流水线中的加法器对乘法器输出的乘积数据进行累加。

可选地，针对每一条流水线的处理单元，依据所述卷积核的尺寸，分别通过每个处理单元所连接的输入端输入对应的矩阵元素，均可以执行如下操作：基于所述卷积核的尺寸，确定该条流水线所包含的处理单元的数量；依据该条流水线所包含的处理单元的数量，从所述输入矩阵提取待计算的矩阵元素，以及通过流水线中的输入端，将提取到的待计算的矩阵元素输入到该条流水线中的处理单元所包含的乘法器中。处理单元中所包含的乘法器在接收到矩阵元素后，可以将当前接收到的矩阵元素与该乘法器对应的权重数据相乘，得到乘积数据，然后可以该乘积数据传输给该处理单元中所包含的加法器，使得加法器可以依据该乘积数据进行相加，得到该处理单元对应的相加结果，进而可以基于该相加结果确定出流水线对应的输出特征值。

具体的，在一条流水线中包含至少两个处理单元的情况下，每一个处理单元可以包含加法器和乘法器，输入矩阵中的矩阵元素输入到处理单元后，可以先由该处理单元中的乘法器计算得到该矩阵元素对应的乘积数据，再由该处理单元中的加法器计算得到乘积数据对应的相加结果，并将得到的相加结果传输给下一个处理单元，以通过下一个处理单元中所包含的加法器对该相加结果进行累加计算，如输入矩阵中的矩阵元素输入到第一个处理单元后，可以先由第一个处理单元中的乘法器计算得到该矩阵元素对应的乘积数据，再由该处理单元中的加法器计算得到乘积数据对应的相加结果，并将得到的相加结果传输给第二个处理单元，使得第一个处理单元计算得到的相加结果可以与第二处理单元计算得到的乘积数据进行相加；即第二个处理单元可以通过加法器，将第一处理单元计算得到的相加结果与第二个处理单元中所包含的乘法器计算得到的乘积数据进行相加，得到新的相加结果，并可以将新的相加结果传输给第三个处理单元，即将第二处理单元计算得到的相加结果传输给下一个处理单元进行计算……以此类推，直至该流水线中最后一个处理单元中的加法器得到相加结果。随后，流水线中最后一个处理单元计算得到的相加结果确定出流水线对应的输出特征值。

在本发明的一个可选实施例中，所述确定至少一条流水线中的处理单元之后，还可以包括：针对每一条流水线中包含的各处理单元，依据所述卷积核中的各卷积核元素，确定各处理单元中包含的乘法器对应的权重数据。具体的，在确定每一条流水线中的处理单元后，可以基于卷积核中的卷积核元素，分别向该流水线中的各处理单元输入对应的一个卷积核元素，使得处理单元可以依据输入的卷积核元素确定该处理单元中的乘法器对应的权重数据。例如，当卷积核是一个二维卷积核时，具有9个卷积核元素，分别为1、2、3、4、5、6、7、8、9，如图2所示，可以将第一个卷积核元素1输入到每一条流水线中的第一个处理单元中，即可以将第一行的卷积核元素“1”输入到流水线的第一个处理单元的乘法器，从而可以将卷积核中的第一个卷积核元素“1”确定为第一个处理单元中的乘法器对应的权重数据；同理，可以将第二个卷积核元素“2”输入到每一条流水线中的第二个处理单元中，从而使得第二个处理单元中的乘法器对应的权重数据为卷积核中的第二个卷积核元素“2”；将第三个卷积核元素“3”输入到每一条流水线中的第三个处理单元中，使得第三个处理单元中的乘法器对应的权重数据为卷积核中的第三个卷积核元素“3”……，如此类推，直到将卷积核中的所有卷积核元素输入到该流水线所包含的对应处理单元中。

其中，通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素，包括：针对每一个输入端，将所述输入端接收到的矩阵元素传输给与所述输入端连接的处理单元中所包含的乘法器。该乘法器可以用于依据所述矩阵元素和所述权重数据计算出乘积数据。上述对输入的矩阵元素进行卷积计算，得到每一流水线对应的输出特征值，包括：分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值。

本发明实施例在同一条流水线中，可以分别通过每个处理单元中的乘法器，对输入的矩阵元素和对应的权重数据进行计算，得到乘积数据；以及，可以通过同一条流水线中的加法器，对各乘法器得到的乘积数据进行累加，得到输出特征值。具体的，在处理单元接收到输入的矩阵元素后，可以通过该处理单元中的乘法器对输入的矩阵元素进行乘积计算，如将输入的矩阵元素与该乘法器对应的权重数据进行相乘，得到相乘后的乘积数据，随后可以通过乘法器将该乘积数据传递给加法器，使得加法器可以获取到该乘积数据。加法器可以将接收到乘积数据与偏置数据相加，得到相加结果，并且可以将相加结果输出给该流水线中的下一个处理单元，使得下一个处理单元可以依据该相加结果确定出加法器对应的偏置数据。

在本发明的一个可选实施例中，流水线的各个处理单元串联连接。上述分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值，具体可以包括：当所述处理单元为流水线中的第一个处理单元时，通过所述第一个处理单元中包含的加法器将所述第一个处理单元中包含的乘法器计算得到的乘积数据和预设的偏置数据进行加法运算，得到相加结果；将所述相加结果传输至所述流水线中与所述第一个处理单元相连接的下一个处理单元；当所述处理单元为流水线中的中间处理单元时，通过所述中间处理单元中包含的加法器将所述中间处理单元中包含的乘法器计算得到的乘积数据和接收到的偏置数据进行加法运算，得到相加结果，将所述相加结果传输至所述流水线中与所述中间处理单元相连接的下一个处理单元，其中，所述中间处理单元为所述流水线中除第一个处理单元和最后一个处理单元之外的处理单元，所述接收到的偏置数据为所述流水线中与所述中间处理单元相连接的上一个处理单元输出的相加结果；当所述处理单元为流水线中的最后一个处理单元时，通过所述最后一个处理单元中包含的加法器将所述最后一个处理单元中包含的乘法器计算得到的乘积数据和所述最后一个处理单元接收到的偏置数据进行加法运算，得到所述流水线对应的输出特征值。其中，最后一个处理单元接收到的偏置数据可以为流水线中与该最后一个处理单元相连接的上一个处理单元所输出的相加结果。

例如，在输入矩阵为二维矩阵时，可以在流水线完成每次卷积运算后，将该流水线中的最后一个处理单元中输出的相加结果作为流水线此次卷积运算得到的输出特征值。又如，在输入矩阵为三维矩阵时，可以根据三维矩阵的维度，将输入矩阵拆分为至少两个二维矩阵，以按照二维矩阵为计算单元采用流水线对拆分后的二维矩阵中的矩阵元素进行卷积运算，并可将流水线中的最后一个处理单元的加法器输出的相加结果输出给累加单元，以通过累加单元进行累加，从而基于到累加结果计算得到的累加结果确定出该三维矩阵对应的一个输出特征值。

其中，加法器接收到的偏置数据可以是输入到加法器的预设偏置数据，也可以是依据上一个处理单元中的加法器输出的相加结果确定出的偏置数据等等。例如，流水线中的第一个处理单元中的加法器接收到的是预设偏置数据，该流水线中的其他处理单元接收到的偏置数据为上一个处理单元输出相加结果。

本发明实施例可以按照卷积神经网络的卷积计算算法，通过流水线中的加法器对各乘法器输出的乘积数据进行累加，得到一个输出特征值，以便后续可以依据该输出特征值生成对应的卷积计算结果。

步骤103，依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

本发明实施例中，可以通过流水线中的处理单元对输入矩阵中的矩阵元素进行卷积计算处理，得到该输入矩阵对应的所有输出特征值，随后可以基于该输入矩阵对应的所有输出特征值生成该输入矩阵对应的卷积计算结果，如可以将输入矩阵对应的所有输出特征值构成一个输出特征矩阵，并将该输出特征矩阵作为卷积计算结果，反馈给应用程序，使得应用程序可以依据该卷积计算结果进行业务处理。

例如，当卷积神经网络应用在图像识别技术领域时，应用程序可以依据该卷积计算结果进行图像识别，以提高图像识别率；又如，在卷积神经网络应用在信号处理技术领域时，应用程序可以依据该卷积计算结果进行信号处理，提高信号处理效率等等。当然，卷积计算还可以应用在其他技术领域，本发明实施例对此不作具体限制。基于此，本发明所说的应用程序可以为图像识别应用程序，也可以为信号处理应用程序等等，在此不再赘述。

综上，本发明实施例可以依据卷积神经网络的卷积核确定出至少一条流水线，并且可以通过流水线的处理单元直接对卷积神经网络中的卷积计算进行处理，不需要进行矩阵的转换，解决了将卷积计算转换为矩阵乘计算所需的矩阵重排带来的额外时间和存储空间的开销的问题，提高计算机的计算效率。

此外，本发明实施例可以依据卷积核的尺寸确定流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量，从而可在卷积计算时依据卷积核的尺寸将对应待计算的矩阵元素输入到同一条流水线的处理单元中，即可采用同一条流水线的处理单元对一个输出特征值所需要的输入矩阵中的矩阵元素进行卷积计算，使得卷积计算时流水线长度与流水线中计算单元数量的所对应长度相等，避免了卷积计算时流水线长度远大于流水线中计算单元数量的所对应长度带来额外开销的问题。其中，流水线长度可以表征：在第一个待计算元素进入流水线到第一个输出矩阵元素计算出来离开流水线这个过程中，每个PE完成的乘加计算的次数。

进一步的，本发明实施例可以使用一条或多条流水线对输入矩阵进行卷积计算处理，提高卷积计算效率。

为使本领域技术人员更好地理解本发明实施例，以下通过示例进行说明：

在具体实现中，可以根据卷积神经网络模型中卷积核的不同大小设计专用的硬件进行卷积计算，以直接对卷积运算进行处理，不需要进行矩阵的转换。具体的，可以根据卷积核的尺寸对流水线进行设计，使得卷积计算的流水线长度与一条流水线中同时进行计算的处理单元个数所对应的长度相同，保证了在数据处理过程中，整个系统开销处于较低的水平。

作为本发明的一个示例，当卷积神经网络的卷积计算应用于图像处理中，可以将输入特征图作为卷积神经网络的输入矩阵，以输入到卷积神经网络中的卷积层进行卷积计算。其中，卷积层中的卷积核可以表征用于卷积计算的特征图。若卷积层的输入矩阵为二维矩阵，则可以直接采用该输入矩阵与进行卷积计算；若卷积层的输入矩阵为三维矩阵，则可以将这个三维矩阵变成若干平面的二维矩阵，以进行二维卷积计算。

例如，在卷积核为图2所示的二维卷积核时，可以依据该卷积核进行流水线计算设计。如图3所示，单条流水线可以设计有9个PE。该流水线可以是计算机进行卷积计算的加速器，且流水线中的PE可以作为加速器的计算部件。在具体实现中，可以将流水线中的这些PE连接起来，共同构成加速器的计算部分。每一个PE可以是一个硬件处理单元，且每一个PE内部结构均相同，可以包括一个乘法器301和一个加法器302。其中，输入特征图的值Pix(即输入矩阵中的待计算元素)可以输入到乘法器301中，以通过乘法器301计算输入特征图的值Pix与该乘法器中对应的权重(Weight)数据之间的乘积数据；加法器302可以对乘法器301计算得到的乘积数据与输入的偏置数据Input_pre进行加法计算，得到PE的计算结果Out，并且可以将计算结果Out输出给下一个PE。

需要说明的是，输入的偏置数据Input_pre可以是上一个PE传输过来的计算结果的值，也可以是预先设置的偏置数据，如流水线中的第一个PE接收到的偏置数据为预先设置的偏置数据Bias等等。PE的计算结果Out可以是加法器计算得到相加结果。另外，在同一条流水线中，PE的计算结果Out可输出给下一个PE，使得下一个PE的加法器可以依据该计算结果Out进行计算，以及可以基于流水线中的最后一个PE输出的计算结果确定出该流水线每次完成卷积计算对应的输出特征值。

在具体实现中，可选地，流水线还可以包括累加单元303。该累加单元303可以与该流水线中的最后一个处理单元相连接，可用于对流水线中的最后一个处理单元输出的计算结果进行累加，得到输出特征值。当输入矩阵为三维矩阵时，可以将该三维矩阵拆分为多个二维矩阵，然后可以按照二维矩阵的计算方式，将拆分后得到的多个二维矩阵输入至流水线中进行计算，从而使得一条流水线的最后一个PE可以得到多个计算结果，并且可以将计算得到的多个计算结果传输到累加单元303中，以通过累加单元303对计算得到的多个计算结果进行累加，得到对应的输出特征值。

本发明实施例中，可选的，所述每个处理单元还可以包括与所述乘法器相连接的第一寄存器和第二寄存器，以及与所述加法器连接的第三寄存器；所述方法还可以包括：分别将每一个处理单元对应的权重数据存储至所述权重数据对应的处理单元中包含的第一寄存器中；分别将输入每一个处理单元的矩阵元素存储至所述接收所述矩阵元素的处理单元中包含的第二寄存器中；将流水线中第一个处理单元对应的预设的偏置数据存储至所述第一处理单元中包含的第三存储器中；或者，将流水线中最后一个处理单元接收到的偏置数据存储至所述最后一个处理单元中包含的第三存储器中；或者，将流水线中中间处理单元接收到的相加结果或新的相加结果存储至所述中间处理单元中包含的第三寄存器中。具体而言，流水线中的每个PE还可以包括：与乘法器相连接的两个寄存器和与加法器连接的第三个寄存器。与乘法器连接的两个寄存器可以用于存储输入给乘法器的数值，其中一个可以作为第一寄存器，另一个可以作为第二寄存器。其中，第一寄存器可以用于处理单元对应的权重数据，第二寄存器可以用于存储输入到处理单元中的矩阵元素。例如，如图3所示，与乘法器301连接的一个寄存器304可以作为第一寄存器，用于存储该乘法器对应的权重数据；与该乘法器301连接的另一个寄存器305可以作为第二寄存器，用于存储输入给该乘法器301的输入特征图的值Pix；与加法器连接的第三个寄存器(即第三寄存器)306可以用于存储前一个PE传输过来的Input_pre值。

在具体实现中，可以采用一个输入矩阵表征输入特征图，从而可以使用输入矩阵的字母表征输入特征图中的每个元素。如图4A所示，可以使用一个字母表示输入矩阵的一行矩阵元素，如采用字母a表示第一行矩阵元素，采用字母b表示第二行矩阵元素，采用字母c表示第三行矩阵元素，采用字母d表示第四行矩阵元素，采用字母e表示第五行矩阵元素，采用字母f表示第六行矩阵元素，……字母的下标可以用于确定该字母为输入矩阵中的第几列矩阵元素，如a0可以表征字母a0为输入矩阵的第一列矩阵元素，a1可以表征字母a1为输入矩阵的第二列矩阵元素，a2可以表征字母a2为输入矩阵的第三列矩阵元素，如此类推，aN可以表征字母aN为输入矩阵的第(N+1)列矩阵元素，N为整数。

在本示例中，在进行卷积计算时，可以依据卷积核的宽度(即卷积核的列数)确定出流水线的输入端数量，并且可以基于该流水线的输入端数量，通过该流水线中所包含的输入端将输入矩阵中的矩阵元素输入到流水线的PE，以通过流水线的PE进行卷积计算。在具体实现中，可以将PE这个结构完成的整个操作称为一次乘加计算，即可将输入特征图的值Pix和该PE的乘法器对应的权重数据进行相乘，然后通过该PE的加法器将相乘后得到的乘积数据与前一个PE传来的值Input_pre相加，得到计算结果Out。

例如，在卷积核为图2所示的三行三列矩阵时，可以基于卷积计算规则，将输入矩阵中的第一行矩阵元素a输入到流水线的前三个PE，如图3所示，在a开始三次乘加计算后，将第二行矩阵元素b输入到接下来的三个PE，即在第四次乘加计算时开始将第二行矩阵元素b输入到流水线中间的这三个PE；以及，在b开始三次乘加计算后将第三行矩阵元素c输入到流水线的后三个PE，即在第七次乘加计算时开始将第三行矩阵元素c输入到流水线的最后三个PE。其中，在每一次乘加计算时，可以将输入矩阵中一行或多行的一个矩阵元素输入到流水线的PE，如在第一次乘加计算时，通过流水线中的第一个输入端，将矩阵元素a0输入到前三个PE中进行卷积计算；在第二次乘加计算时，通过流水线中的第一个输入端将矩阵元素a1输入到前三个PE中进行卷积计算；在第三次乘加计算时，通过流水线中的第一个输入端将矩阵元素a2输入到前三个PE中进行卷积计算；在第四次乘加计算时，通过流水线中的第一个输入端将矩阵元素a3输入到前三个PE中进行卷积计算，同时可以通过流水线中的第二个输入端将矩阵元素b0输入到流水线中间的三个PE中进行卷积计算；在第五次乘加计算时，通过流水线中的第一个输入端将矩阵元素a4输入到前三个PE中进行卷积计算，同时可以通过流水线中的第二个输入端将矩阵元素b1输入到流水线中间的三个PE中进行卷积计算；在第六次乘加计算时，通过流水线中的第一个输入端将矩阵元素a5输入到前三个PE中进行卷积计算，同时可以通过流水线中的第二个输入端将矩阵元素b2输入到流水线中间的三个PE中进行卷积计算；在第七次乘加计算时，通过流水线中的第一个输入端将矩阵元素a6输入到前三个PE中进行卷积计算，同时可以通过流水线中的第二个输入端将矩阵元素b3输入到流水线中间的三个PE中进行卷积计算，以及可以通过流水线中的第三个输入端将矩阵元素c0输入到流水线的最后三个PE中进行卷积计算……如此类推，直到将输入矩阵中的全部矩阵元素输入到PE中，完成卷积计算。其中，流水线中的第一个PE的偏置数据可以与第一个矩阵元素a0同时输入到第一个PE中。

具体的，当计算结果从第一个PE传向下一个PE，直到传到最后一个PE计算结束为止，可以得到卷积计算结果矩阵的一个值。按照上述操作，可以将整个PE相连起来的结构所做的计算看作一条流水线的计算过程。在卷积计算过程中，每一个PE计算完的值在流水线中的状态可以如图4B所示。这是将流水线装满的过程，第一排的1到9可以用于表征流水线中的九个PE，下面的每一行可以是每一次乘加计算后该PE计算完输出的值。对于流水线的各处理单元，在每一次乘加计算后就可以得到一个计算结果，如图4B所示，在第一次乘加计算后，第1个处理单元得到的计算结果可以为a0；在第二次乘加计算后，第1个处理单元得到的计算结果可以为a1，第2个处理单元得到的计算结果可以为(a0+2a1)；在第三次乘加计算后，第1个处理单元得到的计算结果可以为a2，第2个处理单元得到的计算结果可以为(a1+2a2)，第3个处理单元得到的计算结果可以为(a0+2a1+3a2)，如此类推，在第9次乘加计算后，第1个处理单元得到的计算结果可以为a8，第2个处理单元得到的计算结果可以为(a7+2a8)，第3个处理单元得到的计算结果可以为(a6+2a7+3a8)，第4个处理单元得到的计算结果可以为(a5+2a6+3a7+4b5)，……，如此类推，第9个处理单元得到的计算结果可以为(a0+2a1+3a2+4b0+5b1+6b2+7c0+8c1+9c2)，随后可将第9个处理单元得到的计算结果(a0+2a1+3a2+4b0+5b1+6b2+7c0+8c1+9c2)的值确定为输出矩阵中第一行第一列的输出特征值。以此类推，在第10次乘加计算后，第9个处理单元得到的计算结果为输出矩阵中的第一行第二列的输出特征值(a1+2a2+3a3+4b1+5b2+6b3+7c1+8c2+9c3)，以及，在以后每一次乘加计算后均可得到输出矩阵的一个输出特征值。可见，当a，b，c这三行的输入特征值均流过流水线，可以得到输出矩阵中第一行的输出特征值；然后，可再将输入分别变成输入矩阵的b，c，d这三行的输入值，得到输出矩阵第二行的输出特征值，以此类推，得到卷积计算的输出矩阵。该输出矩阵可以作为卷积计算结果，用于表征整个输出特征图。

可选地，在卷积计算开始计算前，可以将卷积核中的卷积元素对应的值输入到PE中，以确定PE中对应的权重数据。例如，在流水线开始计算之前，可将卷积核中九个值1到9依次分别送入流水线的每个PE单元中。

在一种可选实施方式中，可以将计算每一行的输出矩阵的值进行并行，即放置多条流水线同时计算卷积结果，使得输出特征的每一行的输出特征值可以在流水线同时并行计算。例如，可以采用三条流水线中的处理单元并行计算，如图5所示，依据卷积核的大小，可以将输入矩阵的第一行矩阵元素a、第二行矩阵元素b及第三行矩阵元素c输入到第一条流水线中的PE中进行卷积计算处理，同时可以将输入矩阵的第二行矩阵元素b、第三行矩阵元素c及第四行矩阵元素d输入到第二条流水线中的PE中进行卷积计算处理，以及，可以将输入矩阵的第三行矩阵元素c、第四行矩阵元素d及第五行矩阵元素e输入到第三条流水线中的PE中进行卷积计算处理，从而可以同时得到输出特征图三行的输出特征值。在具体实现中，可以依据硬件资源和卷积核大小确定流水线的数量，本发明实施例对此不作限制。在当前输入行i的矩阵元素输入完后，可以将输入矩阵的i+n行的矩阵元素输入到流水线中进行卷积计算，其中，i可以表征当前输入行号，n可以为并行的流水线数量。

综上，应用本发明实施例提供的数据处理方法，可以针对卷积运算设计出专用的硬件，从而可以采用该专用的硬件高效并行地实现卷积运算，不需要将卷积的输入特征矩阵和卷积核转化为矩阵乘中的两个相乘的矩阵，从而大大减少时间和空间的开销。此外，采用该专用的硬件进行卷积运算，操作简单；并且可以采用多条流水线并行执行卷积运算操作，进一步提高卷积计算效率。

本发明实施例提供的数据处理方法不限于在深度学习中卷积神经网络使用，还可以应用于其他领域中的卷积计算场景，本发明实施例对此不作限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

矩阵元素输入模块601，用于在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；

卷积计算结果反馈模块602，用于依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

在本发明的一个可选实施例中，所述流水线包含至少两个输入端，所述装置还包括：流水线确定模块，用于基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量；以及，基于所述硬件资源所包含的处理单元总数量、所述输入端数量以及所述处理单元数量，确定至少一条流水线。

在本发明的一个可选实施例中，流水线确定模块可以包括如下子模块：

在本发明的一个可选实施例中，所述矩阵元素输入模块601可以包括如下子模块：

在本发明实施例中，可选地，处理单元包含乘法器和加法器。该数据处理装置还可以包括：权重确定模块。其中，所述权重确定模块，用于针对每一条流水线包含的各处理单元，依据所述卷积核中的各卷积核元素，确定各处理单元中包含的乘法器对应的权重数据；

在本发明的一个可选实施例中，上述数据处理装置还可以包括如下模块：

相邻行矩阵元素数量确定模块，基于所述卷积核的高度，从所述输入矩阵中确定输入到每一条流水线中的相邻行矩阵元素数量；

首行行号确定模块，用于基于预先设定的卷积计算规则，确定输入到每一条流水线中的所述相邻行矩阵元素的首行行号；

末行行号确定模块，用于根据所述输入到每一条流水线中的相邻行矩阵元素数量和所述相邻行矩阵元素的首行行号，确定输入到所述每一条流水线中的相邻行矩阵元素的末行行号；

其中，所述输入子模块，还可以用于针对每一条流水线，基于确定的相邻行矩阵元素的首行行号和末行行号，依次将确定的相邻行矩阵元素中的各行矩阵元素，分别发送到对应的输入端。随后，该输入子模块可以针对每一个输入端，执行将所述输入端接收到的矩阵元素传输给与所述输入端连接的处理单元中所包含的乘法器的步骤。

在本发明的一个可选实施例中，流水线的各个处理单元串联连接；计算子模块，具体可以包括如下单元：

第一触发单元，用于在所述处理单元为流水线中的第一个处理单元时，触发所述第一个处理单元中包含的加法器将所述第一个处理单元中包含的乘法器计算得到的乘积数据和预设的偏置数据进行加法运算，得到相加结果；将所述相加结果传输至所述流水线中与所述第一个处理单元相连接的下一个处理单元；

第二触发单元，用于在所述处理单元为流水线中的中间处理单元时，触发所述中间处理单元中包含的加法器将所述中间处理单元中包含的乘法器计算得到的乘积数据和接收到的偏置数据进行加法运算，得到相加结果，将所述相加结果传输至所述流水线中与所述中间处理单元相连接的下一个处理单元，其中，所述中间处理单元为所述流水线中除第一个处理单元和最后一个处理单元之外的处理单元，所述接收到的偏置数据为所述流水线中与所述中间处理单元相连接的上一个处理单元输出的相加结果；

第三触发单元，用于当所述处理单元为流水线中的最后一个处理单元时，触发所述最后一个处理单元中包含的加法器将所述最后一个处理单元中包含的乘法器计算得到的乘积数据和所述最后一个处理单元接收到的偏置数据进行加法运算，得到所述流水线对应的输出特征值。

在本发明的一个可选实施例中，所述每个处理单元还包括与所述乘法器相连接的第一寄存器和第二寄存器，以及与所述加法器连接的第三寄存器；所述装置还可以包括如下模块：

第一存储模块，用于分别将每一个处理单元对应的权重数据存储至所述权重数据对应的处理单元中包含的第一寄存器中；

第二存储模块，用于分别将输入每一个处理单元的矩阵元素存储至所述接收所述矩阵元素的处理单元中包含的第二寄存器中；

第三存储模块，用于将流水线中第一个处理单元对应的预设的偏置数据存储至所述第一处理单元中包含的第三存储器中；和/或，将流水线中最后一个处理单元接收到的偏置数据存储至所述最后一个处理单元中包含的第三存储器中；和/或，将流水线中中间处理单元接收到的偏置数据存储至所述中间处理单元中包含的第三寄存器中。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是根据一示例性实施例示出的一种用于数据处理的电子设备700的结构框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种数据处理方法，所述方法包括：在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

基于所述卷积核的高度，确定每条流水线的输入端数量；

可选地，还包括：基于所述卷积核的高度，从所述输入矩阵中确定输入到每一条流水线中的相邻行矩阵元素数量；基于预先设定的卷积计算规则，确定输入到每一条流水线中的所述相邻行矩阵元素的首行行号；根据所述输入到每一条流水线中的相邻行矩阵元素数量和所述相邻行矩阵元素的首行行号，确定输入到所述每一条流水线中的相邻行矩阵元素的末行行号。其中，所述通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素，还可以包括：针对每一条流水线，基于确定的相邻行矩阵元素的首行行号和末行行号，依次将确定的相邻行矩阵元素中的各行矩阵元素，分别发送到对应的输入端。

可选地，流水线的各个处理单元串联连接；分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值，包括：当所述处理单元为流水线中的第一个处理单元时，所述第一个处理单元中包含的加法器将所述第一个处理单元中包含的乘法器计算得到的乘积数据和预设的偏置数据进行加法运算，得到相加结果；将所述相加结果传输至所述流水线中与所述第一个处理单元相连接的下一个处理单元；当所述处理单元为流水线中的中间处理单元时，所述中间处理单元中包含的加法器将所述中间处理单元中包含的乘法器计算得到的乘积数据和接收到的偏置数据进行加法运算，得到相加结果，将所述相加结果传输至所述流水线中与所述中间处理单元相连接的下一个处理单元，其中，所述中间处理单元为所述流水线中除第一个处理单元和最后一个处理单元之外的处理单元，所述接收到的偏置数据为所述流水线中与所述中间处理单元相连接的上一个处理单元输出的相加结果；当所述处理单元为流水线中的最后一个处理单元时，所述最后一个处理单元中包含的加法器将所述最后一个处理单元中包含的乘法器计算得到的乘积数据和所述最后一个处理单元接收到的偏置数据进行加法运算，得到所述流水线对应的输出特征值。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以预测方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法和装置、一种电子设备以及一种储存介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述流水线包含至少两个输入端，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述卷积核的尺寸，确定每条流水线的输入端数量和每个输入端连接的处理单元对应的处理单元数量，包括：

基于所述卷积核的高度，确定每条流水线的输入端数量；

4.根据权利要求2或3所述的方法，其特征在于，所述将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，包括：

5.根据权利要求4所述的方法，其特征在于，所述处理单元包含乘法器和加法器，所述确定至少一条流水线之后，还包括：

针对每一条流水线中包含的各处理单元，依据所述卷积核中的各卷积核元素，确定各处理单元中包含的乘法器对应的权重数据；

6.根据权利要求4所述的方法，其特征在于，还包括：

基于所述卷积核的高度，从所述输入矩阵中确定输入到每一条流水线中的相邻行矩阵元素数量；

基于预先设定的卷积计算规则，确定输入到每一条流水线中的所述相邻行矩阵元素的首行行号；

根据所述输入到每一条流水线中的相邻行矩阵元素数量和所述相邻行矩阵元素的首行行号，确定输入到所述每一条流水线中的相邻行矩阵元素的末行行号；

其中，所述通过每一条流水线的输入端，分别向每一条流水线中的各处理单元输入对应的矩阵元素，包括：针对每一条流水线，基于确定的相邻行矩阵元素的首行行号和末行行号，依次将确定的相邻行矩阵元素中的各行矩阵元素，分别发送到对应的输入端。

7.根据权利要求5所述的方法，其特征在于，流水线的各个处理单元串联连接；

分别通过每一条流水线中的处理单元中包含的加法器，对所述处理单元中包含的乘法器计算得到乘积数据进行累加，得到每一流水线对应的输出特征值，包括：

当所述处理单元为流水线中的第一个处理单元时，通过所述第一个处理单元中包含的加法器将所述第一个处理单元中包含的乘法器计算得到的乘积数据和预设的偏置数据进行加法运算，得到相加结果；将所述相加结果传输至所述流水线中与所述第一个处理单元相连接的下一个处理单元；

当所述处理单元为流水线中的中间处理单元时，通过所述中间处理单元中包含的加法器将所述中间处理单元中包含的乘法器计算得到的乘积数据和接收到的偏置数据进行加法运算，得到相加结果，将所述相加结果传输至所述流水线中与所述中间处理单元相连接的下一个处理单元，其中，所述中间处理单元为所述流水线中除第一个处理单元和最后一个处理单元之外的处理单元，所述接收到的偏置数据为所述流水线中与所述中间处理单元相连接的上一个处理单元输出的相加结果；

当所述处理单元为流水线中的最后一个处理单元时，通过所述最后一个处理单元中包含的加法器将所述最后一个处理单元中包含的乘法器计算得到的乘积数据和所述最后一个处理单元接收到的偏置数据进行加法运算，得到所述流水线对应的输出特征值。

8.根据权利要求7所述的方法，其特征在于，所述每个处理单元还包括与所述乘法器相连接的第一寄存器和第二寄存器，以及与所述加法器连接的第三寄存器；所述方法还包括：

分别将每一个处理单元对应的权重数据存储至所述权重数据对应的处理单元中包含的第一寄存器中；

分别将输入每一个处理单元的矩阵元素存储至所述接收所述矩阵元素的处理单元中包含的第二寄存器中；

将流水线中第一个处理单元对应的预设的偏置数据存储至所述第一处理单元中包含的第三存储器中；和/或，将流水线中最后一个处理单元接收到的偏置数据存储至所述最后一个处理单元中包含的第三存储器中；和/或，将流水线中中间处理单元接收到的偏置数据存储至所述中间处理单元中包含的第三寄存器中。

9.一种数据处理装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述流水线包含至少两个输入端，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述流水线确定模块包括：

12.根据权利要求10或11所述的装置，其特征在于，所述矩阵元素输入模块包括：

13.根据权利要求12所述的装置，其特征在于，所述处理单元包含乘法器和加法器，所述装置还包括：权重确定模块；

其中，所述权重确定模块，用于针对每一条流水线包含的各处理单元，依据所述卷积核中的各卷积核元素，确定各处理单元中包含的乘法器对应的权重数据；

14.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：在接收到应用程序的输入矩阵后，将所述输入矩阵中的矩阵元素输入到至少一条流水线的处理单元进行处理，得到输出特征值，其中，所述至少一条流水线的处理单元为依据硬件资源和卷积神经网络中的卷积核确定；依据所述输出特征值生成卷积计算结果，以及依据所述卷积计算结果向所述应用程序进行反馈。

15.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-8中一个或多个所述的数据处理方法。