CN110825311A

CN110825311A - 用于存储数据的方法和装置

Info

Publication number: CN110825311A
Application number: CN201810908050.8A
Authority: CN
Inventors: 刘翔; 王京; 邱正泽; 漆维
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Kunlun Core Beijing Technology Co ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2020-02-21
Anticipated expiration: 2038-08-10
Also published as: CN110825311B

Abstract

本申请实施例公开了用于存储数据的方法和装置。上述方法的一具体实施方式包括：获取卷积神经网络的至少一个神经元的数据，其中，上述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。该实施方式有利于乘加器阵列快速地获取卷积神经网络的权重数据以进行卷积计算，提高计算速度。

Description

用于存储数据的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于存储数据的方法和装置。

背景技术

人工智能(artificial intelligence)是研究开发用于模拟和扩展人类智能的一门技术，而深度学习(Deep Learning)是当前实现人工智能的最重要的技术之一，其动机在于建立、模拟人脑进行分析学习的神经网络，并模仿人脑的机制来解释数据。

神经网络算法中存在着大量的用户数据与权重数据之间的乘/加法计算。通过专用的硬件乘加器阵列来支持神经网络算法的计算，可以有效地提升性能。

发明内容

本申请实施例提出了用于存储数据的方法和装置。

第一方面，本申请实施例提供了一种用于存储数据的方法，包括：获取卷积神经网络的至少一个神经元的数据，其中，上述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

在一些实施例中，由至少一个神经元的标识形成的第一标识序列包括按预设顺序排列的至少一个字符，上述乘加器阵列包括至少一列乘加器，上述内存的至少一个内存块与上述乘加器阵列的至少一列乘加器一一对应；以及上述对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中，包括：将上述第一标识序列中的标识按照预设顺序，依次将对应的权重数据存储到上述至少一个内存块中，以使得上述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

在一些实施例中，上述方法还包括：对于上述至少一个卷积层中的卷积层，响应于该卷积层中包括的神经元的数量不能被上述乘加器阵列的列数整除，确定能被上述乘加器阵列的列数整除的、数值大于该卷积层中包括的神经元的数量的第一数值；确定上述第一数值与该卷积层中包括的神经元的数量的第一差值；生成上述第一差值个神经元的标识和权重数据，其中，所生成的上述第一差值个神经元的标识与上述至少一个神经元的标识形成的第二标识序列包括按上述预设顺序排列的至少两个字符。

在一些实施例中，上述对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中，包括：将上述第二标识序列中的标识按照上述预设顺序，依次将对应的权重数据存储到上述至少一个内存块中，以使得上述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

在一些实施例中，权重数据包括至少一个卷积核的数据以及标识；以及上述方法还包括：对于上述至少一个神经元中的神经元，响应于确定该神经元中包括的卷积核的数量不能被上述乘加器阵列的列数整除，确定能被上述乘加器阵列的列数整除的、数值大于该神经元中包括的卷积核的数量的第二数值；确定上述第二数值与该神经元中包括的卷积核的数量的第二差值；生成上述第二差值个卷积核的标识和数据以及将所生成的卷积核的数据存储在该神经元所在的内存块中，其中，所生成的上述第二差值个卷积核的标识与在生成标识之前神经元中已有的卷积核的标识的区别之处形成的第四标识序列包括按预设顺序排列的至少两个字符。

在一些实施例中，上述对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中，包括：对于上述至少一个卷积层中的卷积层，将该卷积层中神经元所包括的卷积核的标识按照上述预设顺序，依次将对应的卷积核的数据存储到上述至少一个内存块中，以使得上述乘加器阵列的列数与同一内存块中存储的、属于同一神经元的、存储次序相邻的卷积核的数据对应的标识之间包括的标识的数量之差为1。

在一些实施例中，上述方法还包括：对于上述至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中。

在一些实施例中，上述对于上述至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中，包括：对于上述至少一个内存块中的内存块，将该内存块中存储的卷积核的标识按照上述预设顺序，依次将对应的卷积核的数据输出至与该内存块对应的乘加器阵列中。

第二方面，本申请实施例提供了一种用于存储数据的装置，包括：获取单元，被配置成获取卷积神经网络的至少一个神经元的数据，其中，上述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；存储单元，被配置成对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

在一些实施例中，由至少一个神经元的标识形成的第一标识序列包括按预设顺序排列的至少一个字符，上述乘加器阵列包括至少一列乘加器，上述内存的至少一个内存块与上述乘加器阵列的至少一列乘加器一一对应；以及上述存储单元进一步被配置成：将上述第一标识序列中的标识按照预设顺序，依次将对应的权重数据存储到上述至少一个内存块中，以使得上述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

在一些实施例中，上述装置还包括：第一补充单元，被配置成对于上述至少一个卷积层中的卷积层，响应于该卷积层中包括的神经元的数量不能被上述乘加器阵列的列数整除，确定能被上述乘加器阵列的列数整除的、数值大于该卷积层中包括的神经元的数量的第一数值；确定上述第一数值与该卷积层中包括的神经元的数量的第一差值；生成上述第一差值个神经元的标识和权重数据，其中，所生成的上述第一差值个神经元的标识与上述至少一个神经元的标识形成的第二标识序列包括按上述预设顺序排列的至少两个字符。

在一些实施例中，上述存储单元进一步被配置成：将上述第二标识序列中的标识按照上述预设顺序，依次将对应的权重数据存储到上述至少一个内存块中，以使得上述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

在一些实施例中，权重数据包括至少一个卷积核的数据以及标识；以及上述装置还包括：第二补充单元，被配置成对于上述至少一个神经元中的神经元，响应于确定该神经元中包括的卷积核的数量不能被上述乘加器阵列的列数整除，确定能被上述乘加器阵列的列数整除的、数值大于该神经元中包括的卷积核的数量的第二数值；确定上述第二数值与该神经元中包括的卷积核的数量的第二差值；生成上述第二差值个卷积核的标识和数据以及将所生成的卷积核的数据存储在该神经元所在的内存块中，其中，所生成的上述第二差值个卷积核的标识与在生成标识之前神经元中已有的卷积核的标识的区别之处形成的第四标识序列包括按预设顺序排列的至少两个字符。

在一些实施例中，上述存储单元进一步被配置成：对于上述至少一个卷积层中的卷积层，将该卷积层中神经元所包括的卷积核的标识按照上述预设顺序，依次将对应的卷积核的数据存储到上述至少一个内存块中，以使得上述乘加器阵列的列数与同一内存块中存储的、属于同一神经元的、存储次序相邻的卷积核的数据对应的标识之间包括的标识的数量之差为1。

在一些实施例中，上述装置还包括输出单元，被配置成对于上述至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中。

在一些实施例中，上述输出单元进一步被配置成：对于上述至少一个内存块中的内存块，将该内存块中存储的卷积核的标识按照上述预设顺序，依次将对应的卷积核的数据输出至与该内存块对应的乘加器阵列中。

第三方面，本申请实施例提供了一种人工智能芯片，包括：执行模块以及内存；上述执行模块，被配置成：获取卷积神经网络的至少一个神经元的数据，其中，上述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；对于上述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在上述内存的至少一个内存块中。

第四方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现如第一方面任一实施例所描述的方法。

第五方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面任一实施例所描述的方法。

本申请的上述实施例提供的用于存储数据的方法和装置，在获取了卷积神经网络的至少一个神经元的数据后，可以根据预设的乘加器阵列的列数以及各卷积层所包括的神经元的标识，将每个卷积层中所包括的神经元的数据分别存储到内存的至少一个内存块中。从而有利于乘加器快速地获取卷积神经网络的权重数据进行计算，提高计算速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于存储数据的方法的一个实施例的流程图；

图3是根据本申请的用于存储数据的方法的一个应用场景的示意图；

图4是根据本申请的用于存储数据的方法的另一个实施例的流程图；

图5是根据本申请的用于存储数据的方法的又一个实施例的流程图；

图6是根据本申请的用于存储数据的装置的一个实施例的结构示意图；

图7是根据本申请的人工智能芯片的一个实施例的结构示意图；

图8是适于用来实现本申请实施例的设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于存储数据的方法或用于存储数据的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括CPU 101、内存102、总线103和人工智能芯片(Artificial Intelligence Chip)104。总线103用以在CPU 101和人工智能芯片104之间提供通信链路的介质。上述总线103可以为PCIE(Peripheral Component InterconnectExpress，一种高速串行计算机扩展总线标准)总线等。

CPU 101可以通过总线103与人工智能芯片104进行交互，以发送和接收消息。CPU101可以将内存102中存储的神经网络中神经元的数据通过总线103发送到人工智能芯片104，同时也可以接收人工智能芯片14返回的处理结果。

人工智能芯片104也被称为AI加速器或计算卡，专门用于处理人工智能应用中的大量计算密集型的计算任务。人工智能芯片104可以包括至少一个执行模块。每个执行模块都与一个特定的静态随机存取存储器(Static Random-Access Memory，SRAM)通信，即可以读取SRAM中存储的数据。执行模块中可以设置有乘加器阵列，乘加器阵列中可以包括多个乘加器，每个乘加器可以首先对输入的数据进行乘法计算，然后对得到的积进行相加。人工智能芯片104中的执行模块可以通过总线103以及CPU 101将内存102中存储的卷积神经网络中的各神经元的数据存储到SRAM中，然后执行模块可以读取SRAM中的数据进行卷积运算。人工智能芯片104还可以通过总线103将计算结果返回给CPU 101。

需要说明的是，本申请实施例所提供的用于存储数据的方法一般由人工智能芯片执行。相应地，用于存储数据的装置一般设置于人工智能芯片中。

应该理解，图1中的CPU、内存、总线、人工智能芯片以及人工智能芯片中的执行模块和SRAM的数目仅仅是示意性的。根据实现需要，可以具有任意合适数目的CPU、内存、总线、人工智能芯片以及人工智能芯片中的执行模块和SRAM。

继续参见图2，其示出了根据本申请的用于存储数据的方法的一个实施例的流程200。如图2所示，本实施例的用于存储数据的方法可以包括以下步骤：

步骤201，获取卷积神经网络的至少一个神经元的数据。

本实施例中，上述卷积神经网络可以包括至少一个卷积层，每个卷积层可以包括至少一个神经元，每个神经元的数据可以包括标识和权重数据。卷积神经网络包括数据输入层、卷积层、激励层、池化层以及全连接层。其中，卷积层是卷积神经网络最重要的一个层次，也是“卷积神经网络”的名字来源。卷积层中包括单个或多个神经元，不同卷积层中的神经元相互连接，每两个神经元之间的连接代表加权值，称之为权重(weight)。

卷积层中的每个神经元及其权重可以看作一个滤波器(filter)。本实施例中，卷积神经网络中的每个卷积层中的各神经元都具有标识，例如可以为filter0、filter1、filter2……，或者a、b、c、d……等。神经元的数据还可以包括权重数据。

本实施例的执行主体(例如图1中所示的人工智能芯片104)可以通过总线(例如图1所示的总线103)以及CPU(例如图1所示的CPU 101)从内存(例如图1所示的内存102)中获取卷积神经网络的至少一个神经元的数据。上述卷积神经网络可以是已训练完成的卷积神经网络。

步骤202，对于至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

本实施例中，执行主体可以对卷积神经网络中的每个卷积层中的神经元的数据进行存储。具体的，对于至少一个卷积层中的每个卷积层，执行主体可以根据执行模块中预先设置的乘加器阵列的列数以及该卷积层中所包括的各神经元的标识，将各神经元的权重数据存储在内存的至少一个内存块中。可以理解的是，此处的用于存储权重数据的内存是指人工智能芯片内部的SRAM。通过将各神经元的权重数据存储在SRAM中，可以提高乘加器阵列获取权重数据的速度，从而提升计算速度。

具体的，执行主体可以将各神经元的权重数据依次存储到与乘加器阵列的各列对应的各内存块中。这样，各内存块中存储的权重数据可以输出到对应的一列乘加器中，完成卷积运算。举例来说，乘加器为4×10的阵列，卷积层中包括40个神经元，各神经元的标识分别为0～39的数字。则执行主体可以将标识为0、10、20、30的神经元的权重数据存储在同一内存块中，该内存块可以与乘加器阵列的第一列乘加器对应。可以将标识为1、11、21、31的神经元的权重数据存储在同一内存块中，该内存块与乘加器阵列的第二列乘加器对应……

在本实施例的一些可选的实现方式中，上述至少一个神经元的标识形成的第一标识序列可以包括按预设顺序排列的至少一个字符。例如，各神经元的标识为自然数，则第一标识序列可以为按从小到大顺序排列的自然数。或者，各神经元的标识为英文字母，则第一标识序列可以为按顺序排列的英文字母序列。上述乘加器阵列的各列可以与内存中的各内存块一一对应。则上述步骤202可以由图2中未示出的以下步骤来实现：将第一标识序列中的标识按照预设顺序，依次将对应的权重数据存储到至少一个内存块中，以使得同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量与乘加器阵列的列数相同。

本实现方式中，执行主体可以将第一标识序列中的各标识按照预设顺序，依次将与标识对应的权重数据依次存储到各内存块中。存储完成后，同一内存块中，存储次序相邻的权重数据对应的标识之间包括的标识的数量与乘加器阵列的列数的差为-1。也就是说，在同一内存块中，第一次存储的权重数据对应的标识与第二次存储的权重数据对应的标识之间包括的标识的数量、第二次存储的权重数据对应的标识与第三次存储的权重数据对应的标识之间包括的标识的数量等都等于乘加器阵列的列数减1。

图3示出了根据本实施例的用于存储数据的方法的一个应用场景的示意图。在图3的应用场景中，卷积神经网络包括多个卷积层，每个卷积层都包括多个神经元，每个神经元都包括标识和权重数据。神经元的标识为1、2……n-1、n。终端可以将上述n个神经元的数据依次存储到SRAM中的m个内存块中。

本申请的上述实施例提供的用于存储数据的方法，，在获取了卷积神经网络的至少一个神经元的数据后，可以根据预设的乘加器阵列的列数以及各卷积层所包括的神经元的标识，将每个卷积层中所包括的神经元的数据分别存储到内存的至少一个内存块中。从而有利于乘加器阵列快速地获取卷积神经网络的权重数据进行卷积运算，提高计算速度。

继续参见图4，其示出了根据本申请的用于存储数据的方法的另一个实施例的流程400。如图4所示，本实施例的用于存储数据的方法，可以包括以下步骤：

步骤401，获取卷积神经网络的至少一个神经元的数据。

执行主体可以首先获取卷积神经网络的至少一个神经元的数据。上述神经元的数据可以包括标识和权重数据。

步骤402，对于至少一个卷积层中的卷积层，执行主体可以执行以下步骤：

步骤4021，响应于该卷积层中包括的神经元的数量不能被乘加器阵列的列数整除，确定能被乘加器阵列的列数整除的、数值大于该卷积层中包括的神经元的数量的第一数值。

执行主体在获取到卷积神经网络的至少一个神经元的数据后，针对神经网络中的每个卷积层，可以首先确定该卷积层中包括的至少一个神经元的数量是否能够被乘加器阵列的列数整除。在确定该卷积层中包括的神经元的数量不能被乘加器阵列的列数整除时，可以确定一个能被乘加器阵列的列数整除而且数值大于该卷积层中包括的神经元的数量的第一数值。举例来说，乘加器阵列为4×10的阵列。对于某一卷积层，该卷积层中包括45个神经元。则执行主体在确定45不能被10整除后，可以确定能被10整除的且大于45的第一数值。该第一数值可以为50、60等等。

在本实施例的一些可选的实现方式中，执行主体可以确定一个能被10整除的、且与该卷积层所包括的神经元的数量之间的差值最小的第一数值。仍以上述例子来说，执行主体可以确定上述第一数值为50。

步骤4022，确定第一数值与该卷积层中包括的神经元的数量的第一差值。

在确定第一数值后，执行主体可以计算第一数值与该卷积层中包括的神经元的数量的第一差值。举例来说，执行主体确定第一数值为50，则可以计算50与45的差值为5，即第一差值为5。

步骤4023，生成第一差值个神经元的标识和权重数据。

在确定第一差值后，执行主体可以生成第一差值个神经元的标识和权重。在生成第一差值个神经元的标识时，应该按照第一标识序列中的预设顺序来确定上述第一差值个神经元的标识。举例来说，由各神经元的标识形成的第一标识序列为由小到大的自然数0、1、2……44，则新生成的第一差值个神经元的标识也应该是由小到大的自然数45、46、47、48、49。也就是说，所生成的第一差值个神经元的标识与上述标识生成前已存在的各神经元的标识所形成的第二标识序列中的各标识也按预设顺序来排列。在生成神经元的权重数据时，为了不影响已训练完成的卷积神经网络的计算结果，可以将待生成的权重数据都设为0。

步骤403，对于至少一个卷积层中的卷积层，将第二标识序列中的标识按照预设顺序，依次将对应的权重数据存储到至少一个内存块中，以使得乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

执行主体在生成第一差值个神经元的标识和权重数据后，可以将第二标识序列中的各标识按照预设顺序，依次将对应的权重数据存储到上述至少一个内存块中。在存储完成后，各内存块中存储的神经元的数据的数量应相同。且在同一内存块中，乘加器阵列的列数与第一次存储的权重数据对应的标识与第二次存储的权重数据对应的标识之间包括的标识的数量之差为1。举例来说，乘加器阵列的列数为10，内存中与乘加器阵列的第一列对应的内存块中第一次存储的权重数据对应的标识为0。则该内存块中第二次存储的权重数据对应的标识为10。第二次存储的权重数据对应的标识与第一次存储的权重数据对应的标识之间包括的标识为1、2、3……9，一共9个标识。乘加器阵列的列数10与9的差为1。

本申请的上述实施例提供的用于存储数据的方法，在各内存块中存储的数据可以用于卷积神经网络的卷积运算。同时为了保证计算的稳定性与准确性，可以在各卷积层所包括的神经元的数量不能被乘加器阵列的列数整除时，向各卷积层中补入神经元的数据。

继续参见图5，其示出了根据本申请的用于存储数据的方法的另一个实施例的流程500。本实施例中，神经元的权重数据包括至少一个卷积核的数据以及标识。也就是说，一个神经元可以包括至少一个卷积核，神经元的权重数据可以卷积核的形式来表示。可以理解的是，位于同一卷积层的各神经元中包括的卷积核的数量相同。神经元中包括的卷积核的数量与输入该卷积层的数据的通道数量相关。神经元中包括的各卷积核具有标识，且属于同一神经元的各卷积核的标识之间的不同之处可以为数字或字母。例如，标识为0的神经元中各卷积核的标识可以为0-0、0-1、0-2……，或者可以为0-a、0-b、0-c……。本实施例中，同一神经元的各卷积核的标识的区别之处所形成的第三标识序列为第一标识序列的子序列。需要说明的是，此处的子序列是指，在第一标识序列中取前N个标识即可得到第三标识序列，其中，N为第三标识序列中包括的标识的数量。举例来说，第一标识序列为0～49的自然数序列，则第三序列可以是0～5的自然数序列。

如图5所示，本实施例中的用于存储数据的方法可以包括以下步骤：

步骤501，获取卷积神经网络的至少一个神经元的数据。

步骤502，对上述至少一个神经元中的每个神经元，执行主体可以进行以下步骤的处理：

步骤5021，响应于确定该神经元中包括的卷积核的数量不能被乘加器阵列的列数整除，确定能被乘加器阵列的列数整除的、数值大于该神经元中包括的卷积核的数量的第二数值。

本实施例中，执行主体可以首先确定该神经元中包括的卷积核的数量是否能够被乘加器阵列的列数整除。如果不能整除，则执行主体可以确定能被乘加器阵列的列数整除的、且数值大于该神经元中包括的卷积核的数量的第二数值。

步骤5022，确定第二数值与该神经元中包括的卷积核的数量的第二差值。

在确定第二数值后，执行主体可以计算第二数值与该神经元中包括的卷积核的数量的第二差值。

步骤5023，生成第二差值个卷积核的标识和数据以及将所生成的卷积核的数据存储在该神经元所在的内存块中。

在确定第二差值后，执行主体可以生成第二差值个神经元的标识和权重。在生成第二差值个神经元的标识时，应该按照第一标识序列中的预设顺序来确定上述第二差值个神经元的标识。举例来说，在生成标识之前神经元中已有的卷积核的标识0-0、0-1、0-2……0-8。各各卷积核的标识的区别之处为0、1、2……8。则所生成的第二差值个卷积核的标识与已有的卷积核的标识的区别之处形成的第四标识序列也应该包括按预设顺序排列的至少两个字符。也就是说，所生成的第二差值个卷积核的标识与已有的卷积核的标识的区别之处也应该是自然数。假如第二差值为1，则生成的卷积核的标识与已有的卷积核的标识的区别之处应为9。则得到的卷积核的标识为0-9。

在生成第二差值个卷积核的标识后，可以生成第二差值个卷积核的数据。为了不影响已训练完成的卷积神经网络的计算结果，可以将待生成的卷积核的数据都设为0。

在生成第二差值个卷积核的标识和数据后，执行主体可以将所生成的数据存储在该神经元所在的内存块中。

步骤503，对于至少一个卷积层中的卷积层，将该卷积层中神经元所包括的卷积核的标识按照预设顺序，依次将对应的卷积核的数据存储到至少一个内存块中，以使得乘加器阵列的列数与同一内存块中存储的、属于同一神经元的、存储次序相邻的卷积核的数据对应的标识之间包括的标识的数量之差为1。

对于每个卷积层，执行主体可以将该卷积层中神经元所包括的各卷积核的标识按照预设顺序，依次将对应的卷积核的数据存储到上述至少一个内存块中。存储完成后，同一内存块中存储的、属于同一神经元的、存储次序相邻的卷积核的数据对应的标识之间包括的标识的数量等于乘加器阵列的列数减1。举例来说，乘加器阵列的列数为10，一内存块中存储的卷积核的标识为0-0、0-10、1-0、1-10、2-0、2-10……即，第一次存储的卷积核的数据对应的标识为0-0，第二次存储的卷积核的数据对应的标识为0-10，0-0与0-10之间包括的卷积核的标识的数量为0-1、0-2……0-9，其数量为9。乘加器阵列的列数为10与9的差值为1。

本申请的上述实施例提供的用于存储数据的方法，在各内存块中存储的数据，可以用于卷积神经网络的反卷积运算。

在图4所示本实施例或图5所示实例的一些可选的实现方式中，上述方法还可以包括图4或图5中未示出的以下步骤：对于至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中。

执行主体在将上述神经网络的各神经元的数据存储在和内存块中后，对于每个内存块，执行主体可以将该内存块中存储的权重数据输出值与该内存块对应的乘加器阵列中。

在一些可选的实现方式中，执行主体可以将该内存块中存储的卷积核的标识按照预设顺序，依次将对应的卷积核的数据输出至与该内存块对应的乘加器阵列中。

举例来说，一内存块中存储的卷积核的标识为0-0、0-10、1-0、1-10、2-0、2-10……，执行主体在输出时，可以依次输出标识为0-0、0-10、1-0、1-10、2-0、2-10的卷积核的数据。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于存储数据的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于存储数据的装置600包括：获取单元601和存储单元602。

获取单元601，被配置成获取卷积神经网络的至少一个神经元的数据。其中，卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据。

存储单元602，被配置成对于至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

在本实施例的一些可选的实现方式中，乘加器阵列包括至少一列乘加器，内存的至少一个内存块与乘加器阵列的至少一列乘加器一一对应。上述存储单元602可以进一步被配置成：将所述第一标识序列中的标识按照预设顺序，依次将对应的权重数据存储到所述至少一个内存块中，以使得所述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

在本实施例的一些可选的实现方式中，上述装置600还可以进一步包括图6中未示出的第一补充单元，被配置成对于至少一个卷积层中的卷积层，响应于该卷积层中包括的神经元的数量不能被乘加器阵列的列数整除，确定能被乘加器阵列的列数整除的、数值大于该卷积层中包括的神经元的数量的第一数值；确定第一数值与该卷积层中包括的神经元的数量的第一差值；生成第一差值个神经元的标识和权重数据。其中，所生成的所述第一差值个神经元的标识与所述至少一个神经元的标识形成的第二标识序列包括按所述预设顺序排列的至少两个字符。

在本实施例的一些可选的实现方式中，上述存储单元602可以进一步被配置成：将所述第二标识序列中的标识按照所述预设顺序，依次将对应的权重数据存储到所述至少一个内存块中，以使得所述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

在本实施例的一些可选的实现方式中，权重数据包括至少一个卷积核的数据以及标识。上述装置600还可以进一步包括图6中未示出的第二补充单元，被配置成对于至少一个神经元中的神经元，响应于确定该神经元中包括的卷积核的数量不能被乘加器阵列的列数整除，确定能被乘加器阵列的列数整除的、数值大于该神经元中包括的卷积核的数量的第二数值；确定第二数值与该神经元中包括的卷积核的数量的第二差值；生成第二差值个卷积核的标识和数据以及将所生成的卷积核的数据存储在该神经元所在的内存块中。其中，所生成的第二差值个卷积核的标识与在生成标识之前神经元中已有的卷积核的标识的区别之处形成的第四标识序列包括按预设顺序排列的至少两个字符。

在本实施例的一些可选的实现方式中，上述存储单元602可以进一步被配置成：对于至少一个卷积层中的卷积层，将该卷积层中神经元所包括的卷积核的标识按照所述预设顺序，依次将对应的卷积核的数据存储到至少一个内存块中，以使得乘加器阵列的列数与同一内存块中存储的、属于同一神经元的、存储次序相邻的卷积核的数据对应的标识之间包括的标识的数量之差为1。

在本实施例的一些可选的实现方式中，上述装置600还可以进一步包括图6中未示出的输出单元，被配置成对于至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中。

在本实施例的一些可选的实现方式中，上述输出单元可以进一步被配置成：对于至少一个内存块中的内存块，将该内存块中存储的卷积核的标识按照预设顺序，依次将对应的卷积核的数据输出至与该内存块对应的乘加器阵列中。

本申请的上述实施例提供的用于存储数据的装置，在获取了卷积神经网络的至少一个神经元的数据后，可以根据预设的乘加器阵列的列数以及各卷积层所包括的神经元的标识，将每个卷积层中所包括的神经元的数据分别存储到内存的至少一个内存块中。从而有利于乘加器快速地获取卷积神经网络的权重数据进行计算，提高计算速度。

应当理解，用于存储数据的装置600中记载的单元601至单元602分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用于存储数据的方法描述的操作和特征同样适用于装置600及其中包含的单元，在此不再赘述。

继续参见图7，其示出了根据本申请的人工智能芯片的结构示意图。如图7所示，本实施例的人工智能芯片700可以包括执行模块701和内存702，执行模块701被配置成：获取卷积神经网络的至少一个神经元的数据，其中，卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；对于至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在上述内存702的至少一个内存块中。

下面参考图8，其示出了适于用来实现本申请实施例的设备的计算机系统800的结构示意图。图8示出的设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括一个或多个中央处理单元(CPU)801以及一个或多个人工智能芯片804。CPU 801可以根据存储在只读存储器(ROM)802中的程序或者从存储部分807加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。人工智能芯片804包括一个或多个通用执行部件以及一个或多个专用执行部件，人工智能芯片804可以根据从CPU 801接收的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802、RAM 803以及人工智能芯片804通过总线805彼此相连。输入/输出(I/O)接口806也连接至总线805。

以下部件连接至I/O接口806：包括硬盘等的存储部分807；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分808。通信部分808经由诸如因特网的网络执行通信处理。驱动器809也根据需要连接至I/O接口806。可拆卸介质810，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器809上，以便于从其上读出的计算机程序根据需要被安装入存储部分807。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分808从网络上被下载和安装，和/或从可拆卸介质810被安装。在该计算机程序被人工智能芯片804的通用执行部件执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在人工智能芯片中，例如，可以描述为：一种人工智能芯片包括获取单元和存储单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，接收单元还可以被描述为“获取卷积神经网络的至少一个神经元的数据的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取卷积神经网络的至少一个神经元的数据，其中，卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；对于至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于存储数据的方法，包括：

获取卷积神经网络的至少一个神经元的数据，其中，所述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；

对于所述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

2.根据权利要求1所述的方法，其中，由所述至少一个神经元的标识形成的第一标识序列包括按预设顺序排列的至少一个字符，所述乘加器阵列包括至少一列乘加器，所述内存的至少一个内存块与所述乘加器阵列的至少一列乘加器一一对应；以及

所述对于所述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中，包括：

将所述第一标识序列中的标识按照预设顺序，依次将对应的权重数据存储到所述至少一个内存块中，以使得所述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

3.根据权利要求2所述的方法，其中，所述方法还包括：

对于所述至少一个卷积层中的卷积层，响应于该卷积层中包括的神经元的数量不能被所述乘加器阵列的列数整除，确定能被所述乘加器阵列的列数整除的、数值大于该卷积层中包括的神经元的数量的第一数值；确定所述第一数值与该卷积层中包括的神经元的数量的第一差值；生成所述第一差值个神经元的标识和权重数据，其中，所生成的所述第一差值个神经元的标识与所述至少一个神经元的标识形成的第二标识序列包括按所述预设顺序排列的至少两个字符。

4.根据权利要求3所述的方法，其中，所述对于所述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中，包括：

将所述第二标识序列中的标识按照所述预设顺序，依次将对应的权重数据存储到所述至少一个内存块中，以使得所述乘加器阵列的列数与同一内存块中、存储次序相邻的权重数据对应的标识之间包括的标识的数量之差为1。

5.根据权利要求1所述的方法，其中，权重数据包括至少一个卷积核的数据以及标识；以及

所述方法还包括：

对于所述至少一个神经元中的神经元，响应于确定该神经元中包括的卷积核的数量不能被所述乘加器阵列的列数整除，确定能被所述乘加器阵列的列数整除的、数值大于该神经元中包括的卷积核的数量的第二数值；确定所述第二数值与该神经元中包括的卷积核的数量的第二差值；生成所述第二差值个卷积核的标识和数据以及将所生成的卷积核的数据存储在该神经元所在的内存块中，其中，所生成的所述第二差值个卷积核的标识与在生成标识之前神经元中已有的卷积核的标识的区别之处形成的第四标识序列包括按预设顺序排列的至少两个字符。

6.根据权利要求5所述的方法，其中，所述对于所述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中，包括：

对于所述至少一个卷积层中的卷积层，将该卷积层中神经元所包括的卷积核的标识按照所述预设顺序，依次将对应的卷积核的数据存储到所述至少一个内存块中，以使得所述乘加器阵列的列数与同一内存块中存储的、属于同一神经元的、存储次序相邻的卷积核的数据对应的标识之间包括的标识的数量之差为1。

7.根据权利要求1-6任一项所述的方法，其中，所述方法还包括：

对于所述至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中。

8.根据权利要求7所述的方法，其中，所述对于所述至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中，包括：

对于所述至少一个内存块中的内存块，将该内存块中存储的卷积核的标识按照所述预设顺序，依次将对应的卷积核的数据输出至与该内存块对应的乘加器阵列中。

9.一种用于存储数据的装置，包括：

获取单元，被配置成获取卷积神经网络的至少一个神经元的数据，其中，所述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；

存储单元，被配置成对于所述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在内存的至少一个内存块中。

10.根据权利要求9所述的装置，其中，由所述至少一个神经元的标识形成的第一标识序列包括按预设顺序排列的至少一个字符，所述乘加器阵列包括至少一列乘加器，所述内存的至少一个内存块与所述乘加器阵列的至少一列乘加器一一对应；以及

所述存储单元进一步被配置成：

11.根据权利要求10所述的装置，其中，所述装置还包括：

第一补充单元，被配置成对于所述至少一个卷积层中的卷积层，响应于该卷积层中包括的神经元的数量不能被所述乘加器阵列的列数整除，确定能被所述乘加器阵列的列数整除的、数值大于该卷积层中包括的神经元的数量的第一数值；确定所述第一数值与该卷积层中包括的神经元的数量的第一差值；生成所述第一差值个神经元的标识和权重数据，其中，所生成的所述第一差值个神经元的标识与所述至少一个神经元的标识形成的第二标识序列包括按所述预设顺序排列的至少两个字符。

12.根据权利要求11所述的装置，其中，所述存储单元进一步被配置成：

13.根据权利要求9所述的装置，其中，权重数据包括至少一个卷积核的数据以及标识；以及

所述装置还包括：

第二补充单元，被配置成对于所述至少一个神经元中的神经元，响应于确定该神经元中包括的卷积核的数量不能被所述乘加器阵列的列数整除，确定能被所述乘加器阵列的列数整除的、数值大于该神经元中包括的卷积核的数量的第二数值；确定所述第二数值与该神经元中包括的卷积核的数量的第二差值；生成所述第二差值个卷积核的标识和数据以及将所生成的卷积核的数据存储在该神经元所在的内存块中，其中，所生成的所述第二差值个卷积核的标识与在生成标识之前神经元中已有的卷积核的标识的区别之处形成的第四标识序列包括按预设顺序排列的至少两个字符。

14.根据权利要求13所述的装置，其中，所述存储单元进一步被配置成：

15.根据权利要求9-14任一项所述的装置，其中，所述装置还包括输出单元，被配置成对于所述至少一个内存块中的内存块，将该内存块中存储的权重数据输出至与该内存块对应的乘加器阵列中。

16.根据权利要求15所述的装置，其中，所述输出单元进一步被配置成：

17.一种人工智能芯片，包括：执行模块以及内存；

所述执行模块，被配置成：获取卷积神经网络的至少一个神经元的数据，其中，所述卷积神经网络包括至少一个卷积层，卷积层包括至少一个神经元，神经元的数据包括标识和权重数据；对于所述至少一个卷积层中的卷积层，根据预设的乘加器阵列的列数以及该卷积层所包括的至少一个神经元的标识，将该卷积层所包括的至少一个神经元的权重数据存储在所述内存的至少一个内存块中。

18.一种设备，包括：

一个或多个处理器；

一个或多个如权利要求17所述的人工智能芯片；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个人工智能芯片实现如权利要求1-8中任一所述的方法。

19.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。