CN109376856B

CN109376856B - 数据处理方法及处理装置

Info

Publication number: CN109376856B
Application number: CN201710678037.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-08-09
Filing date: 2017-08-09
Publication date: 2022-07-08
Anticipated expiration: 2037-08-09
Also published as: CN109376856A

Abstract

本公开提供了一种数据处理方法及数据处理装置。其中处理方法包括：将数据转化为图像、视频和/或音频格式；将格式转化后的代表数据的图像、视频和/或音频进行压缩。上述数据处理方法能减少访存同时减少运算量，从而获得加速比并降低能耗。

Description

数据处理方法及处理装置

技术领域

本公开涉及计算机领域，进一步涉及人工智能领域。

背景技术

神经网络以及机器学习算法已经获得了非常成功的应用。但是随着我们设计更大规模，更深层次的神经网络，将引入更多的权值，而超大规模权值成为神经网络计算的一个巨大挑战。

一方面，超大规模的权值数据对存储提出了更高的要求，尤其是在手机等嵌入式设备中，存储相当有限，可能导致无法存放所有的权值数据。另一个方面，大量访问权值数据将带来巨大的访存能耗，因此，如何压缩神经网络规模成为一个亟待解决的问题。

发明内容

(一)要解决的技术问题

有鉴于此，本公开提供了一种数据处理方法及加速装置。

(二)技术方案

根据本公开的第一方面，提供一种数据处理方法，其中包括：

将神经网络的权值转化为图像、视频和/或音频格式；

将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩。

进一步的，将神经网络的权值转化为图像、视频和/或音频格式，包括步骤：将神经网络的每一层的权值被映射到大于等于0小于2ⁿ，其中n为正整数；设定每一层中权值的最小值Wmin和最大值Wmax，该层权值的分布区间为[Wmin，Wmax]；将该分布区间平均分为2ⁿ份，按照从小到大的顺序将区间标记为0至2ⁿ-1，处于对应区间的权值映射成为该区间的编号。

进一步的，所述n为8的正整数倍。

进一步的，在将神经网络的权值转化为图像格式时，包括步骤：将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin和Nout均为大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；将神经网络的全连接层映射为一幅长为Nin，宽为Nout，大小为Nin*Nout的图像。

进一步的，在将神经网络的权值转化为图像格式时，包括步骤：将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；将神经网络卷积层的权值映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

进一步的，在将神经网络的权值转化为图像格式时，包括步骤：设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；将LSTM层的第i个全连接层权值被映射成长为Nin_i，宽为Nout_i，大小为Nin_i*Nout_i的图像；LSTM层的m个全连接层总共映射为m幅不同的图像。

进一步的，在将神经网络的权值转化为视频格式时，还包括步骤：将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；将神经网络的全连接层按照(Bin，Bout)的块大小被分割为(Nin*Nout)/(Bin*Bout)个子块，其中Bin是大于0小于等于Nin的正整数，Bout是大于0小于等于Nout的正整数，每一个子块设为一幅图像，这些图像按照视频格式被填充为视频的一帧。

进一步的，在将神经网络的权值转化为视频格式时，还包括步骤：将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；将神经网络的卷积层按照(Bfin,Bfout,Bx,By)的块大小被分割为(Nfin*Nfout*Kx*Ky)/(Bfin*Bfout*Bx*By)个子块，其中Bfin是大于0小于等于Nfin的正整数，Bfout是大于0小于等于Nfout的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数，每一个子块可以看成是一幅长为Bfin*Bx，宽为Bfout*By的图像，这些图像按照视频格式被填充为视频的一帧。

进一步的，将神经网络的权值转化为视频格式时，还包括步骤：设神经网络的LSTM层由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；将LSTM的第i个全连接层权值按照(Bin_i，Bout_i)的块大小分割为(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块，其中Bin_i是大于0且小于等于Nin_i的正整数，Bout_i是大于0且小于等于Nout_i的正整数，每一个子块设为一幅图像，(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块的图像按照视频格式被填充为视频的一帧；将LSTM层的m个全连接层的映射为含m个不同的视频。

进一步的，在将神经网络的权值转化为音频格式时，包括步骤：设神经网络的全连接层为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；将神经网络的全连接层的权值按照采样率f填充为一个音频，其中f为大于0的正整数。

进一步的，将神经网络的权值转化为音频格式时，包括步骤：设神经网络的卷积层为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小；将神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

进一步的，将神经网络的权值转化为音频格式时，包括步骤：设神经网络的LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；将LSTM的第i个全连接层权值按照采样率f填充为一个音频，其中f为大于0的正整数；将LSTM层总共映射为m个不同的音频。

进一步的，将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩之后还包括：采用重训练的方式调整神经网络的权值。

根据本公开的第二方面，提供一种数据处理装置，其中包括：

格式转化单元：用于将神经网络的权值转化为图像、视频和/或音频格式；

压缩单元：用于将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩。

进一步的，所述格式转化单元包括图像转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为图像格式。

进一步的，所述图像转化单元包括图像全连接层转化子单元，用于将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin和Nout均为大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层映射为一幅长为Nin，宽为Nout，大小为Nin*Nout的图像。

进一步的，所述图像转化单元包括图像卷积层转化子单元，用于将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；还用于将神经网络卷积层的权值映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

进一步的，所述图像转化单元包括图像LSTM层转化子单元，用于设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM层的第i个全连接层权值被映射成长为Nin_i，宽为Nout_i，大小为Nin_i*Nout_i的图像；还用于将LSTM层的m个全连接层总共映射为m幅不同的图像。

进一步的，所述格式转化单元包括视频转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为视频格式。

进一步的，所述视频转化单元包括视频全连接层转化子单元，用于将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层按照(Bin，Bout)的块大小被分割为(Nin*Nout)/(Bin*Bout)个子块，其中Bin是大于0小于等于Nin的正整数，Bout是大于0小于等于Nout的正整数，每一个子块设为一幅图像，这些图像按照视频格式被填充为视频的一帧。

进一步的，所述视频转化单元包括视频卷积层转化子单元，用于将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；还用于将神经网络的卷积层按照(Bfin,Bfout,Bx,By)的块大小被分割为(Nfin*Nfout*Kx*Ky)/(Bfin*Bfout*Bx*By)个子块，其中Bfin是大于0小于等于Nfin的正整数，Bfout是大于0小于等于Nfout的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数，每一个子块可以看成是一幅长为Bfin*Bx，宽为Bfout*By的图像，这些图像按照视频格式被填充为视频的一帧。

进一步的，所述视频转化单元包括视频LSTM层转化子单元，用于预设神经网络的LSTM层由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM的第i个全连接层权值按照(Bin_i，Bout_i)的块大小分割为(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块，其中Bin_i是大于0且小于等于Nin_i的正整数，Bout_i是大于0且小于等于Nout_i的正整数，每一个子块设为一幅图像，(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块的图像按照视频格式被填充为视频的一帧；以及用于将LSTM层的m个全连接层的映射为含m个不同的视频。

进一步的，所述格式转化单元包括音频转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为音频格式。

进一步的，所述音频转化单元包括音频全连接层转化子单元，用于预设神经网络的全连接层为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层的权值按照采样率f填充为一个音频，其中f为大于0的正整数。

进一步的，所述音频转化单元包括音频卷积层转化子单元，用于预设神经网络的卷积层为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小；还用于将神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

进一步的，所述音频转化单元包括音频LSTM层转化子单元，用于预设神经网络的LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM的第i个全连接层权值按照采样率f填充为一个音频，其中f为大于0的正整数；以及用于将LSTM层总共映射为m个不同的音频。

进一步的，还包括训练单元，用于采用重训练的方式调整神经网络的权值。

根据本公开的第三方面，提供一种加速装置，包括：

存储器：用于存储可执行指令；

处理器：用于执行存储单元中的可执行指令，在执行指令时依照以上任一所述数据处理方法进行操作。

根据本发明的第四方面，提供一种芯片，所述芯片包括以上所述的装置。

根据本发明的第五方面，提供一种芯片封装结构，包括以上所述的芯片。

根据本发明的第六方面，提供一种板卡，包括以上所述的芯片封装结构。

根据本发明的第七方面，提供一种电子装置，包括以上所述的板卡。

进一步的，所述电子装置包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备交通工具、家用电器、和/或医疗设备。

进一步的，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

(三)有益效果

本压缩方法将神经网络的权值转化为图像，视频或者音频格式，然后对图像，视频和音频进行压缩，从而实现对神经网络的高速，高效压缩。

附图说明

图1是本公开一实施例数据处理方法的流程图。

图2是本公开另一实施例数据处理方法的流程图。

图3是本公开一实施例数据处理装置的示意图。

图4是本公开另一实施例数据处理装置的示意图。

图5是本公开实施例加速装置的示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开作进一步的详细说明。

根据本公开的基本构思，提供一种数据处理方法包括格式转化和对应格式压缩两部分。其中，格式转化是将神经网络的权值转化为图像,视频或者音频格式；对应格式压缩是将格式转化后的代表神经网络权值的图像，视频或者音频按照对应格式进行压缩。该数据处理方法能够实现高速，高效压缩神经网络。

图1是本公开一实施例数据处理方法的流程图。根据本公开实施例的一方面，提供了一种压缩神经网络的方法，包括步骤：

S101：将神经网络的权值转化为图像、视频和/或音频格式；

S102：将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩。

在一些实施例中，如图2所示，本公开的数据处理方法除包括步骤：S201：将神经网络的权值转化为图像、视频和/或音频格式以及S202：将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩。另外还包括步骤S203：采用重训练的方式调整神经网络的权值。

以下将根据转化格式的不同，列举多个实施例对本公开进行具体说明，但应理解的是，以下这些实施例仅用于阐述本公开，而不应理解为为本公开的一种限定。

在一些实施方式中，可将神经网络的权值转化为图像格式，然后采用压缩图像的方式对权值进行压缩，最后采用重训练的方式微调神经网络的权值。

进一步的，在转化图像格式过程中，神经网络的每一层的权值被映射到大于等于0小于2ⁿ，这2ⁿ个不同的数，其中n是8的正整数倍。假设层中权值的最小值Wmin和最大值Wmax，该层权值的分布区间为[Wmin，Wmax]，该分布区间被平均分为2ⁿ份，按照从小到大的顺序将区间标记为0，1，2，…，2ⁿ-1。处于对应区间的权值将被映射成为该区间的编号。

进一步的，神经网络的全连接层(fully-connected layer)可以看成是一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数。神经网络的全连接层被映射为一幅长为Nin，宽为Nout，大小为Nin*Nout的图像。

进一步的，神经网络的卷积层(convolutional layer)可以看成是一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小。神经网络卷积层的权值被映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

进一步的，神经网络的卷积层可以看成是一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小。神经网络卷积层的权值被映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

进一步的，神经网络的LSTM(long short-term memory)层的权值由多个全连接层权值组成，假设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数。假设第i个全连接层权值为(Nin_i，Nout_i)，其中i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数，则LSTM层的第i个全连接层权值被映射成长为Nin_i，宽为Nout_i，大小为Nin_i*Nout_i的图像。LSTM层总共会被映射为m幅不同的图像。

在一些实施例中，将神经网络的权值转化为视频格式，然后采用压缩视频的方式对权值进行压缩，最后采用重训练的方式微调神经网络的权值。

进一步的，在转化视频格式过程中，神经网络的每一层的权值被映射到大于等于0小于2ⁿ，这2ⁿ个不同的数，其中n是8的正整数倍。假设层中权值的最小值Wmin和最大值Wmax，该层权值的分布区间为[Wmin，Wmax]，该分布区间被平均分为2ⁿ份，按照从小到大的顺序将区间标记为0，1，2，…，2ⁿ-1。处于对应区间的权值将被映射成为该区间的编号。

进一步的，神经网络的全连接层可以看成是一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数。神经网络的全连接层按照(Bin，Bout)的块大小被分割为(Nin*Nout)/(Bin*Bout)个子块，其中Bin是大于0小于等于Nin的正整数，Bout是大于0小于等于Nout的正整数。每一个子块可以看成是一幅图像，这些图像按照视频格式被填充为视频的一帧。

进一步的，神经网络的卷积层可以看成是一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小。神经网络的卷积层按照(Bfin,Bfout,Bx,By)的块大小被分割为(Nfin*Nfout*Kx*Ky)/(Bfin*Bfout*Bx*By)个子块，其中Bfin是大于0小于等于Nfin的正整数，Bfout是大于0小于等于Nfout的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数，每一个子块可以看成是一幅长为Bfin*Bx，宽为Bfout*By的图像，这些图像按照视频格式被填充为视频的一帧。

进一步的，神经网络的LSTM(long short-term memory)层的权值由多个全连接层权值组成，假设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数。假设第i个全连接层权值为(Nin_i，Nout_i)，其中i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数。LSTM的第i个全连接层权值按照(Bin_i，Bout_i)的块大小被分割为(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块，其中Bin_i是大于0小于等于Nin_i的正整数，Bout_i是大于0小于等于Nout_i的正整数，每一个子块可以看成是一幅图像，这些图像按照视频格式被填充为视频的一帧。LSTM层总共会被映射为m个不同的视频。

在一些实施例中，可将神经网络的权值转化为音频格式，然后采用压缩音频的方式对权值进行压缩，最后采用重训练的方式微调神经网络的权值。

进一步的，在转化音频格式过程中，神经网络的每一层的权值被映射到大于等于0小于2ⁿ，这2ⁿ个不同的数，其中n为正整数，优选的n是8的正整数倍。假设层中权值的最小值Wmin和最大值Wmax，该层权值的分布区间为[Wmin，Wmax]，该分布区间被平均分为2ⁿ份，按照从小到大的顺序将区间标记为0，1，2，…，2ⁿ-1。处于对应区间的权值将被映射成为该区间的编号。

进一步的，神经网络的全连接层可以看成是一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数。神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

进一步的，神经网络的卷积层可以看成是一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小。神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

进一步的，神经网络的LSTM(long short-term memory)层的权值由多个全连接层权值组成，假设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数。假设第i个全连接层权值为(Nin_i，Nout_i)，其中i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数。LSTM的第i个全连接层权值按照采样率f被填充为一个音频，其中f为大于0的正整数。LSTM层总共会被映射为m个不同的音频。

在一些实施例中，可将神经网络不同层的权值进行混合压缩。例如将神经网络的卷积层转化为图像格式进行压缩，将神经网络的全连接层转化为视频格式进行压缩，将神经网络的LSTM层转化为音频进行压缩，最后采用重训练的方式微调神经网络的权值。

本公开一些实施例中，公开了一种数据处理装置，如图3所示，包括格式转化单元：用于将神经网络的权值转化为图像、视频和/或音频格式；以及压缩单元：用于将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩。

进一步的，如图4所示，格式转化单元可包括图像转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为图像格式。

在一些实例中，所述图像转化单元包括图像全连接层转化子单元，用于将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin和Nout均为大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层映射为一幅长为Nin，宽为Nout，大小为Nin*Nout的图像。

在一些实例中，所述图像转化单元包括图像卷积层转化子单元，用于将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；还用于将神经网络卷积层的权值映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

在一些实例中，所述图像转化单元包括图像LSTM层转化子单元，用于设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM层的第i个全连接层权值被映射成长为Nin_i，宽为Nout_i，大小为Nin_i*Nout_i的图像；还用于将LSTM层的m个全连接层总共映射为m幅不同的图像。

进一步的，格式转化单元还可包括视频转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为视频格式。

在一些实施例中，所述视频转化单元包括视频全连接层转化子单元，用于将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层按照(Bin，Bout)的块大小被分割为(Nin*Nout)/(Bin*Bout)个子块，其中Bin是大于0小于等于Nin的正整数，Bout是大于0小于等于Nout的正整数，每一个子块设为一幅图像，这些图像按照视频格式被填充为视频的一帧。

在一些实施例中，所述视频转化单元包括视频卷积层转化子单元，用于将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；还用于将神经网络的卷积层按照(Bfin,Bfout,Bx,By)的块大小被分割为(Nfin*Nfout*Kx*Ky)/(Bfin*Bfout*Bx*By)个子块，其中Bfin是大于0小于等于Nfin的正整数，Bfout是大于0小于等于Nfout的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数，每一个子块可以看成是一幅长为Bfin*Bx，宽为Bfout*By的图像，这些图像按照视频格式被填充为视频的一帧。

在一些实施例中，所述视频转化单元包括视频LSTM层转化子单元，用于预设神经网络的LSTM层由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM的第i个全连接层权值按照(Bin_i，Bout_i)的块大小分割为(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块，其中Bin_i是大于0且小于等于Nin_i的正整数，Bout_i是大于0且小于等于Nout_i的正整数，每一个子块设为一幅图像，(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块的图像按照视频格式被填充为视频的一帧；以及用于将LSTM层的m个全连接层的映射为含m个不同的视频。

进一步的，格式转化单元还可包括音频转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为音频格式。

在一些实施例中，所述音频转化单元包括音频全连接层转化子单元，用于预设神经网络的全连接层为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层的权值按照采样率f填充为一个音频，其中f为大于0的正整数。

在一些实施例中，所述音频转化单元包括音频卷积层转化子单元，用于预设神经网络的卷积层为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像featuremap数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小；还用于将神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

在一些实施例中，所述音频转化单元包括音频LSTM层转化子单元，用于预设神经网络的LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM的第i个全连接层权值按照采样率f填充为一个音频，其中f为大于0的正整数；以及用于将LSTM层总共映射为m个不同的音频。

本公开一些实施例中，公开了一种加速装置，包括：存储器：存储有可执行指令；处理器：用于执行存储单元中的可执行指令，在执行指令时依照上述处理方法进行操作。

其中，处理器可以是单个处理单元，但也可以包括两个或更多个处理单元。另外，处理器还可以包括通用处理器(CPU)或者图形处理器(GPU)；还可以包括在现场可编程逻辑门阵列(FPGA)或者专用集成电路(ASIC)，以对神经网络进行设置和运算。处理器还可以包括用于缓存用途的片上存储器(即包括处理装置中的存储器)。

在一些实施例里，公开了一种芯片，其包括了上述神经网络处理器。

在一些实施例里，公开了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，公开了一种板卡，其包括了上述芯片封装结构。

在一些实施例里，公开了一种电子装置，其包括了上述板卡。

电子装置包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶和/或油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

应该理解到，所揭露的相关装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本公开中，所有的模块或单元都可以是硬件结构，硬件结构的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器，DNA计算机。

通过本公开的实施例，提供了神经网络的权值压缩的处理方法和对应的处理装置，以及芯片、芯片封装结构、板卡和电子装置。数据处理方法中，通过将神经网络的权值转化为图像，视频或者音频格式，然后对图像，视频和音频进行压缩，从而实现对神经网络的高速，高效压缩。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数据处理方法，其中包括：

将神经网络的全连接层、卷积层和/或LSTM层的权值转化为图像、视频和/或音频格式；

将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩；

其中，在将神经网络的权值转化为图像格式时，包括步骤：

设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；

将LSTM层的第i个全连接层权值被映射成长为Nin_i，宽为Nout_i，大小为Nin_i*Nout_i的图像；

LSTM层的m个全连接层总共映射为m幅不同的图像。

2.根据权利要求1所述的方法，其特征在于，将神经网络的权值转化为图像、视频和/或音频格式，包括步骤：

将神经网络的每一层的权值被映射到大于等于0小于2ⁿ，其中n为正整数；

设定每一层中权值的最小值Wmin和最大值Wmax，该层权值的分布区间为[Wmin，Wmax]；

将该分布区间平均分为2ⁿ份，按照从小到大的顺序将区间标记为0至2ⁿ-1，处于对应区间的权值映射成为该区间的编号。

3.根据权利要求2所述的方法，其特征在于，所述n为8的正整数倍。

4.根据权利要求1-3任一所述的方法，其特征在于，在将神经网络的权值转化为图像格式时，包括步骤：

将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin和Nout均为大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；

将神经网络的全连接层映射为一幅长为Nin，宽为Nout，大小为Nin*Nout的图像。

5.根据权利要求1-3任一所述的方法，其特征在于，在将神经网络的权值转化为图像格式时，包括步骤：

将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；

将神经网络卷积层的权值映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

6.根据权利要求1-3任一所述的方法，其特征在于，在将神经网络的权值转化为视频格式时，还包括步骤：

将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；

将神经网络的全连接层按照(Bin，Bout)的块大小被分割为(Nin*Nout)/(Bin*Bout)个子块，其中Bin是大于0小于等于Nin的正整数，Bout是大于0小于等于Nout的正整数，每一个子块设为一幅图像，这些图像按照视频格式被填充为视频的一帧。

7.根据权利要求1-3任一所述的方法，其特征在于，在将神经网络的权值转化为视频格式时，还包括步骤：

将神经网络的卷积层按照(Bfin，Bfout，Bx，By)的块大小被分割为(Nfin*Nfout*Kx*Ky)/(Bfin*Bfout*Bx*By)个子块，其中Bfin是大于0小于等于Nfin的正整数，Bfout是大于0小于等于Nfout的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数，每一个子块可以看成是一幅长为Bfin*Bx，宽为Bfout*By的图像，这些图像按照视频格式被填充为视频的一帧。

8.根据权利要求1-3任一所述的方法，其特征在于，将神经网络的权值转化为视频格式时，还包括步骤：

设神经网络的LSTM层由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；

将LSTM的第i个全连接层权值按照(Bin_i，Bout_i)的块大小分割为(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块，其中Bin_i是大于0且小于等于Nin_i的正整数，Bout_i是大于0且小于等于Nout_i的正整数，每一个子块设为一幅图像，(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块的图像按照视频格式被填充为视频的一帧；

将LSTM层的m个全连接层的映射为含m个不同的视频。

9.根据权利要求1-3任一所述的方法，其特征在于，在将神经网络的权值转化为音频格式时，包括步骤：

设神经网络的全连接层为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；

将神经网络的全连接层的权值按照采样率f填充为一个音频，其中f为大于0的正整数。

10.根据权利要求1-3任一所述的方法，其特征在于，将神经网络的权值转化为音频格式时，包括步骤：

设神经网络的卷积层为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小；

将神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

11.根据权利要求1-3任一所述的方法，其特征在于，将神经网络的权值转化为音频格式时，包括步骤：

设神经网络的LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；

将LSTM的第i个全连接层权值按照采样率f填充为一个音频，其中f为大于0的正整数；

将LSTM层总共映射为m个不同的音频。

12.根据权利要求1-3任一所述的方法，其特征在于，将格式转化后的代表神经网络权值的图像、视频和/或音频进行压缩之后还包括：

采用重训练的方式调整神经网络的权值。

13.一种数据处理装置，其中包括：

格式转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为图像、视频和/或音频格式，其中，所述格式转化单元包括图像转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为图像格式，所述图像转化单元包括图像LSTM层转化子单元，用于设LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM层的第i个全连接层权值被映射成长为Nin_i，宽为Nout_i，大小为Nin_i*Nout_i的图像；还用于将LSTM层的m个全连接层总共映射为m幅不同的图像；

14.根据权利要求13所述的数据处理装置，其特征在于，所述图像转化单元包括图像全连接层转化子单元，用于将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin和Nout均为大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层映射为一幅长为Nin，宽为Nout，大小为Nin*Nout的图像。

15.根据权利要求13所述的数据处理装置，其特征在于，所述图像转化单元包括图像卷积层转化子单元，用于将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；还用于将神经网络卷积层的权值映射为一幅长为Nfin*Kx，宽为Nfout*Ky，大小为Nfin*Nfout*Kx*Ky的图像。

16.根据权利要求13所述的数据处理装置，其特征在于，所述格式转化单元包括视频转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为视频格式。

17.根据权利要求16所述的数据处理装置，其特征在于，所述视频转化单元包括视频全连接层转化子单元，用于将神经网络的全连接层设为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层按照(Bin，Bout)的块大小被分割为(Nin*Nout)/(Bin*Bout)个子块，其中Bin是大于0小于等于Nin的正整数，Bout是大于0小于等于Nout的正整数，每一个子块设为一幅图像，这些图像按照视频格式被填充为视频的一帧。

18.根据权利要求16所述的数据处理装置，其特征在于，所述视频转化单元包括视频卷积层转化子单元，用于将神经网络的卷积层设为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核的大小；还用于将神经网络的卷积层按照(Bfin，Bfout，Bx，By)的块大小被分割为(Nfin*Nfout*Kx*Ky)/(Bfin*Bfout*Bx*By)个子块，其中Bfin是大于0小于等于Nfin的正整数，Bfout是大于0小于等于Nfout的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数，每一个子块可以看成是一幅长为Bfin*Bx，宽为Bfout*By的图像，这些图像按照视频格式被填充为视频的一帧。

19.根据权利要求16所述的数据处理装置，其特征在于，所述视频转化单元包括视频LSTM层转化子单元，用于预设神经网络的LSTM层由m个全连接层权值组成，m为大于0的正整数，其中，第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM的第i个全连接层权值按照(Bin_i，Bout_i)的块大小分割为(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块，其中Bin_i是大于0且小于等于Nin_i的正整数，Bout_i是大于0且小于等于Nout_i的正整数，每一个子块设为一幅图像，(Nin_i*Nout_i)/(Bin_i*Bout_i)个子块的图像按照视频格式被填充为视频的一帧；以及用于将LSTM层的m个全连接层的映射为含m个不同的视频。

20.根据权利要求13所述的数据处理装置，其特征在于，所述格式转化单元包括音频转化单元：用于将神经网络的全连接层、卷积层和/或LSTM层的权值转化为音频格式。

21.根据权利要求20所述的数据处理装置，其特征在于，所述音频转化单元包括音频全连接层转化子单元，用于预设神经网络的全连接层为一个二维矩阵(Nin，Nout)，其中Nin，Nout是大于0的正整数，Nin表示输入神经元的个数，Nout表示输出神经元的个数；还用于将神经网络的全连接层的权值按照采样率f填充为一个音频，其中f为大于0的正整数。

22.根据权利要求20或21所述的数据处理装置，其特征在于，所述音频转化单元包括音频卷积层转化子单元，用于预设神经网络的卷积层为一个四维矩阵(Nfin，Nfout，Kx，Ky)，其中Nfin表示输入特征图像feature map数量，Nfout表示输出特征图像数量，Kx*Ky表示卷积核kernel的大小；还用于将神经网络的全连接层的权值按照采样率f被填充为一个音频，其中f为大于0的正整数。

23.根据权利要求20或21所述的数据处理装置，其特征在于，所述音频转化单元包括音频LSTM层转化子单元，用于预设神经网络的LSTM层的权值由m个全连接层权值组成，m为大于0的正整数，其中第i个全连接层权值为(Nin_i，Nout_i)，i是小于m的正整数，Nin_i表示第i个全连接层权值输入神经元个数，Nout_i表示第i个全连接层权值输出神经元个数；还用于将LSTM的第i个全连接层权值按照采样率f填充为一个音频，其中f为大于0的正整数；以及用于将LSTM层总共映射为m个不同的音频。

24.根据权利要求13所述的数据处理装置，其特征在于还包括训练单元，用于采用重训练的方式调整神经网络的权值。

25.一种加速装置，包括：

存储器：用于存储可执行指令；

处理器：用于执行存储单元中的可执行指令，在执行指令时依照权利要求1-12任一所述数据处理方法进行操作。

26.一种电子装置，其特征在于，所述电子装置包括权利要求13-23任一所述的数据处理装置或者包括权利要求25的加速装置，所述电子装置包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备；