CN111382853B

CN111382853B - 数据处理装置、方法、芯片及电子设备

Info

Publication number: CN111382853B
Application number: CN201811625704.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2022-12-09
Anticipated expiration: 2038-12-28
Also published as: CN111382853A

Abstract

本申请提供一种数据处理装置、方法、芯片及电子设备，所述数据处理装置用于执行机器学习计算，所述数据处理装置包括处理电路以及控制电路，所述处理电路的第一输入端与所述控制电路的第一输出端连接，所述处理电路包括分块压缩模块，该数据处理装置中的分块压缩模块能够有效节省压缩处理的运算量。

Description

数据处理装置、方法、芯片及电子设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理装置、方法、芯片及电子设备。

背景技术

随着数字电子技术的不断发展，各类人工智能(Artificial Intelligence，AI)芯片的快速发展对于高性能数字处理装置的要求也越来越高。神经网络算法作为智能芯片广泛应用的算法之一，通常需要对大量的数据进行不同的运算处理。

目前，数据处理装置可以对大量数据压缩后进行运算处理，以缩减数据量，减少存储空间，提高传输、存储和处理效率。但是，部分压缩后的数据大小可能会大于压缩前的原始数据大小，从而导致压缩处理的运算量较大。

发明内容

基于此，有必要针对上述技术问题，提供一种数据处理装置、方法、芯片及电子设备。

本发明实施例提供一种数据处理装置，所述数据处理装置用于执行机器学习计算；所述数据处理装置包括处理电路以及控制电路，所述处理电路的第一输入端与所述控制电路的输出端连接，所述处理电路包括分块压缩模块；

其中，所述控制电路用于解析数据处理指令得到数据的处理参数，并将所述处理参数输入至所述分块压缩模块；所述分块压缩模块用于根据所述处理参数，对接收到的原始数据进行分块处理得到分块数据，并对所述分块数据进行压缩处理，得到已编码数据的信息；所述分块压缩模块还用于根据已编码数据的所述信息，判断所述分块数据满足触发压缩旁路的条件，则将所述分块数据作为目标压缩数据。

在其中一个实施例中，所述分块压缩模块还用于根据已编码数据的所述信息，判断所述分块数据不满足触发压缩旁路的条件时，则继续对所述分块数据进行压缩处理。

在其中一个实施例中，所述数据处理装置还包括存储电路以及控制电路，所述存储电路用于存储原始数据，所述控制电路用于获取计算指令，并解析所述计算指令得到多个运算指令，将多个所述运算指令输入至所述分块压缩模块中。

在其中一个实施例中，所述存储电路的第一输出端与所述处理电路的第二输入端连接，所述存储电路的第二输出端与所述控制电路的输入端连接，所述存储电路的第一输入端与所述处理电路的输出端连接，所述存储电路的第二输入端与所述控制电路的第二输出端连接。

在其中一个实施例中，所述分块压缩模块包括分块处理单元、压缩处理单元以及选择器，所述分块处理单元的第一输出端与所述压缩处理单元的输入端连接，所述压缩处理单元的输出端与所述选择器的第一输入端连接，所述分块处理单元的第二输出端与所述选择器的第二输入端连接；

其中，所述分块处理单元用于对接收到的所述原始数据进行分块处理得到分块数据，所述压缩处理单元用于对所述分块数据进行压缩处理，得到已编码数据的信息，根据已编码数据的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，若不满足，则对所述分块数据进行后续压缩处理得到压缩数据，所述选择器用于根据接收到的逻辑判断信号确定，接收分块处理单元输出的所述分块数据，还是压缩处理单元对所述分块数据进行后续压缩处理后得到的压缩数据，作为目标压缩数据并输出。

本实施例提供的一种数据处理装置，该装置包括处理电路以及控制电路，处理电路包括分块压缩模块，分块压缩模块可以对原始数据，先进行分块处理得到分块数据，并采用压缩算法对分块数据进行压缩处理，若分块数据满足触发压缩旁路的条件时，则分块压缩模块可以将该分块数据作为目标压缩数据输出，不需要对分块数据进行后续压缩处理，该过程能够有效节省分块压缩模块压缩处理的运算量。

本发明实施例提供一种数据处理方法，所述方法包括：

接收待处理数据；

根据处理参数对所述待处理数据进行分块处理，得到分块数据；

根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据中的信息；

根据已编码数据中的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，其中，所述处理压缩旁路的条件包括所述待处理数据的大小小于已编码数据的大小；

若满足，则将所述分块数据作为目标压缩数据。

在其中一个实施例中，所述处理参数包括分块处理参数以及压缩处理参数。

在其中一个实施例中，所述根据处理参数对所述待处理数据进行分块处理，得到分块数据，包括：根据分块处理参数对所述待处理数据进行分块处理，得到分块数据。

在其中一个实施例中，所述根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据中的信息，包括：根据压缩处理参数对所述待处理数据进行压缩处理，得到已编码数据中的信息。

在其中一个实施例中，所述根据已编码数据中的所述信息，判断所述分块数据是否满足触发压缩旁路的条件之后，还包括：若不满足，则采用压缩算法对所述分块数据进行后续压缩处理，得到目标压缩数据。

在其中一个实施例中，所述得到目标压缩数据的步骤之后，还包括：通过处理电路对所述目标压缩数据进行并行运算处理。

本实施例提供的一种数据处理方法，接收待处理数据，根据处理参数对所述待处理数据进行分块处理，得到分块数据，根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据中的信息，根据已编码数据中的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，若满足，则将所述分块数据作为目标压缩数据，该方法可以有效节省压缩处理的运算量。

本发明实施例提供的一种机器学习运算装置，该机器学习运算装置包括一个或者多个所述的数据处理装置；该机器学习运算装置用于从其它处理装置中获取待运算数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其它处理装置；

当所述机器学习运算装置包含多个所述数据处理装置时，所述多个所述数据处理装置间可以通过特定的结构进行链接并传输数据；

其中，多个所述数据处理装置通过PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算；多个所述数据处理装置共享同一控制系统或拥有各自的控制系统；多个所述数据处理装置共享内存或者拥有各自的内存；多个所述数据处理装置的互联方式是任意互联拓扑。

本发明实施例提供的一种组合处理装置，该组合处理装置包括如所述的机器学习处理装置、通用互联接口，和其它处理装置；该机器学习运算装置与上述其它处理装置进行交互，共同完成用户指定的操作；该组合处理装置还可以包括存储装置，该存储装置分别与所述机器学习运算装置和所述其它处理装置连接，用于保存所述机器学习运算装置和所述其它处理装置的数据。

本发明实施例提供的一种神经网络芯片，该神经网络芯片包括上述所述的数据处理装置、上述所述的机器学习运算装置或者上述所述的组合处理装置。

本发明实施例提供的一种神经网络芯片封装结构，该神经网络芯片封装结构包括上述所述的神经网络芯片。

本发明实施例提供的一种板卡，该板卡包括上述所述的神经网络芯片封装结构。

本发明实施例提供了一种电子装置，该电子装置包括上述所述的神经网络芯片或者上述所述的板卡。

本发明实施例提供的一种芯片，包括至少一个如上述任一项所述的数据处理装置。

本发明实施例提供的一种电子设备，包括如所述的芯片。

附图说明

图1为一实施例提供的一种数据处理装置的结构示意图；

图2为另一实施例提供的一种数据处理装置的具体结构示意图；

图3为一实施例提供的一种对数据进行压缩处理的方法流程示意图；

图4为一实施例提供的一种组合处理装置的结构图；

图5为一实施例提供的另一种组合处理装置的结构图；

图6为一实施例提供的一种板卡的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据处理装置可应用于AI芯片、现场可编程门阵列FPGA(Field－Programmable Gate Array，FPGA)芯片、或者是其它的硬件电路设备中对数据进行压缩处理，其具体结构示意图如图1所示。

如图1所示为一实施例提供的一种数据处理装置的结构示意图。如图1所示，该数据处理装置用于执行机器学习计算；所述数据处理装置包括处理电路11以及控制电路12，所述处理电路11的第一输入端与所述控制电路12的第一输出端连接，所述处理电路11包括分块压缩模块111；其中，所述控制电路12用于解析数据处理指令得到数据的处理参数，并将所述处理参数输入至所述分块压缩模块；所述分块压缩模块111用于根据所述处理参数，对接收到的原始数据进行分块处理得到分块数据，并对所述分块数据进行压缩处理，得到已编码数据的信息；所述分块压缩模块111还用于根据已编码数据的所述信息，判断所述分块数据满足触发压缩旁路的条件，则将所述分块数据作为目标压缩数据。

可选的，所述分块压缩模块111还用于所述分块数据不满足触发压缩旁路的条件时，则继续对所述分块数据进行压缩处理。

可选的，所述机器学习计算包括：人工神经网络运算。可选的，如图2所示，所述数据处理装置还包括存储电路13，所述存储电路13用于存储原始数据，所述控制电路12用于获取计算指令，并解析所述计算指令得到多个运算指令，将多个所述运算指令输入至所述处理电路11中。

其中，所述存储电路13的第一输出端与所述处理电路11的第二输入端连接，所述存储电路13的第二输出端与所述控制电路12的输入端连接，所述存储电路13的第一输入端与所述处理电路11的输出端连接，所述存储电路13的第二输入端与所述控制电路12的第二输出端连接。

具体的，数据处理装置中的处理电路11可以通过分块压缩模块111，对接收到的原始数据进行分块处理后得到分块数据，并采用具体的压缩算法对分块数据进行压缩处理，在压缩过程中可以获得已编码数据的信息，根据该信息判断分块数据是否满足触发压缩旁路的条件，若满足，则分块数据可以退出压缩处理过程，分块压缩模块111可以将分块数据，作为对应的目标压缩数据直接输出；若分块压缩模块111根据获得的已编码数据的信息，判断分块数据不满足触发压缩旁路的条件时，则分块压缩模块111可以采用具体的压缩算法对分块数据继续进行后续压缩处理；也就是说，在分块压缩模块111获得已编码数据中的信息时，压缩处理过程已经执行一部分了，当分块压缩模块111根据分块数据中的信息，判断分块数据不满足触发压缩旁路的条件时，则分块压缩模块111可以对分块数据执行剩余的压缩处理过程。其中，剩余的压缩处理过程可以称为上述所指的后续压缩处理。另外，分块压缩模块111得到目标压缩数据后，处理电路11还可以对这些压缩数据进行不同的并行运算处理。可选的，上述已编码数据的信息可以为已编码数据的长度或大小。可选的，上述处理电路11可以包括主处理电路和/或从处理电路，若处理电路中包括主处理电路和从处理电路时，从处理电路可以为多个。其中，主处理电路和从处理电路中均包含分块压缩模块111，并且通过分块压缩模块111均可以对原始数据进行分块处理以及压缩处理。

可选的，处理电路11中的分块压缩模块111可以接收存储电路13输出的原始数据，并且分块压缩模块111还可以接收控制电路12输入的处理参数，其中，处理参数包括分块处理参数以及压缩处理参数。可选的，分块压缩模块111可以根据分块处理参数，对原始数据进行分块处理得到分块数据，并根据接收到的压缩处理参数对分块数据进行压缩处理。可选的，上述分块处理参数可以包括分块的大小，分块的行数和列数等。可选的，上述压缩处理参数可以包括对分块数据进行压缩处理的具体压缩算法。可选的，原始数据的格式可以是压缩后数据的格式，还可以是未压缩数据的格式。可选的，数据处理装置可以包括多个处理电路11。可选的，控制电路12可以接收分块和压缩等处理的指令，并解析指令得到分块和压缩等处理的参数，并将参数输入至处理电路11中的分块压缩模块111。

此外，若根据已编码数据的信息，判断出待压缩数据(即分块数据)满足触发压缩旁路的条件时，则分块压缩模块111不需要采用任何压缩算法，继续对待压缩数据进行后续压缩处理，直接可以将待压缩数据作为目标压缩数据输出，同时，若根据已编码数据中的信息，判断出待压缩数据不满足触发压缩旁路的条件时，则分块压缩模块111需要采用具体的压缩算法，对待压缩数据进行后续压缩处理。可选的，触发压缩旁路的条件可以为待压缩数据的大小小于已编码数据的大小。

需要说明的是，处理电路11中的分块压缩模块111可以根据控制电路14输入的压缩处理参数，对该分块数据采用具体的压缩算法进行压缩处理得到对应的目标压缩数据。可选的，分块压缩模块111可以对分块数据进行并行处理。可选的，每一个分块数据可以得到一个目标压缩数据，其中，目标压缩数据可以包括两部分，分别为首部数据和尾部数据，该尾部数据包含的信息可以为压缩的具体数据，首部数据包含的信息可以包括尾部数据的长度、该数据块应用的压缩算法、尾部数据的起始地址以及压缩标志位等信息。可选的，上述压缩标志位可以表征该目标压缩数据是通过完整的压缩算法进行处理得到的，还是未进行具体的压缩处理直接得到目标压缩数据的，还可以理解为，该压缩标志位可以包括两种信号，分别为低电平信号0和高电平信号1表示，0可以表示该压缩数据是通过完整的压缩算法进行处理得到的，1可以表示该压缩数据是通过分块数据直接得到的。可选的，上述压缩数据中尾部数据的分布类型可以为一维紧密型，二维紧密型，三维紧密型，还可以为其它任意维度紧密型。

示例性的，若压缩数据中的尾部数据中包含多个数据，一个数据后连续相接下一个数据，依次类推，连续分布多个数据，该种分布形式可以称为一维紧密型；若多个数据分布的形式是固定位宽大小，例如可以为8比特位宽的矩阵分布形式，若第一个数据为6比特位宽的数据“010100”，则第二个数据可以为6比特位宽的数据“101101”，则第二个压缩格式数据的高2位数值“10”可以连续相接第一个数据后，即“01010010”这8个数值位于同一行，第二个数据的低4位数值“1101”可以分布于第二行，然后相连第三个数据，依次类推，每一行存储的数值位数是固定的，多余的数值可以分布于下一行，该种分布形式可以称为二维紧密型；若多个数据分布的形式可以为多个固定大小的矩阵分布，例如可以为8位*8位的多个矩阵分布形式。若第一个数据为6比特位宽的数据“010100”，则第二个数据可以为6比特位宽的数据“101101”，则第二个压缩格式数据的高2位数值“10”可以连续相接第一个压缩格式的数据，即“01010010”这8个数值位于同一行，第二个压缩格式数据的低4位数值“1101”可以分布于第二行，然后相连第三个数据，依次类推，每一行存储的数值位数是固定的，多余的数值可以分布于下一行，当数据将第一个固定大小的矩阵框分布完后，可以继续将数据分布于第二个固定大小的矩阵框，依次类推，直到将所有数据全部分布完为止，该种分布形式可以称为三维紧密型。

可选的，若处理电路11中包含主处理电路以及从处理电路，则主处理电路中的分块压缩模块111可以将目标压缩数据输入至从处理电路，通过从处理电路对目标压缩数据进行后续的不同并行运算处理，还可以将目标压缩数据返回至存储电路13写入外部存储，等待后续读入。可选的，若处理电路11中只包含多个从处理电路，则每个从处理电路中的分块压缩模块111均可以对目标压缩数据进行后续运算处理。

另外，继续参见图2，上述数据处理装置还可以包括直接内存访问单元。可选的，上述数据处理装置中的存储电路13可以包括：寄存器、缓存中任意组合。缓存可以存储输入数据，寄存器可以存储输入数据中标量数据，缓存可以包括高速暂存缓存。可选的，控制电路12可以包括：指令缓存单元121、指令处理单元122以及存储队列单元123，其中，指令缓存单元121可以存储人工神经网络运算关联的计算指令，指令处理单元122可以对计算指令解析得到多个运算指令，存储队列单元123可以存储指令队列，该指令队列可以包括：按该队列的前后顺序待执行的多个运算指令或计算指令。

可选的，上述控制电路12还可以包括依赖关系处理单元124，该依赖关系处理单元124用于在具有多个运算指令时，确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，则将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算单元。

所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括：依据所述第一运算指令提取所述第一运算指令中所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第零运算指令不具有关联关系。

本实施例提供的一种数据处理装置，该装置包括处理电路以及控制电路，处理电路包括分块压缩模块，分块压缩模块可以对原始数据，先进行分块处理得到分块数据，并采用压缩算法对分块数据进行压缩处理，若分块数据满足触发压缩旁路的条件时，则分块压缩模块可以将该分块数据作为目标压缩数据输出，不需要对分块数据进行后续压缩处理，该过程能够有效节省分块压缩模块的运算量以及存储开销，从而提高数据处理装置的运算效率；另外，数据处理装置还可以对多个分块数据采用并行方式进行压缩处理，有效的提高了压缩的效率。

如图2所示为另一个实施例提供的一种数据处理装置中处理电路的具体结构示意图，其中，处理电路中的所述分块压缩模块111包括分块处理单元1111、压缩处理单元1112以及选择器1113，所述分块处理单元1111的第一输出端与所述压缩处理单元1112的输入端连接，所述压缩处理单元1112的输出端与所述选择器1113的第一输入端连接，所述分块处理单元1111的第二输出端与所述选择器1113的第二输入端连接。其中，所述分块处理单元1111用于对接收到的所述原始数据进行分块处理得到分块数据，所述压缩处理单元1112用于对所述分块数据进行压缩处理，得到所述已编码数据的信息，根据已编码数据的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，若不满足，则对所述分块数据进行后续压缩处理得到压缩数据，所述选择器1113用于根据接收到的逻辑判断信号确定，接收分块处理单元1111输出的所述分块数据，还是压缩处理单元1112对所述分块数据进行后续压缩处理后得到的压缩数据，作为目标压缩数据并输出。

具体的，分块压缩模块111对分块数据进行压缩处理时，可以默认将分块数据先输入至压缩处理单元1112进行压缩处理，压缩处理过程执行一部分后，可以得到该分块数据中的信息，压缩处理单元1112可以根据该信息判断该分块数据是否满足触发压缩旁路的条件，根据判断结果可以向选择器1113输入一个逻辑判断信号，选择器1113根据接收到的逻辑判断信号确定，分块压缩模块111可以直接接收分块处理单元1111输出的分块数据，作为目标压缩数据输出，还是压缩处理单元1112可以继续采用具体的压缩算法，对分块数据进行后续压缩处理后得到压缩结果，接收压缩处理单元1112输出的该压缩结果，作为目标压缩数据输出。可选的，逻辑判断信号可以包括两种，分别表示满足触发压缩旁路的条件以及不满触发压缩旁路的条件。其中，若选择器1113接收到的信号表示，满足触发压缩旁路的条件时，则选择器1113可以直接接收分块处理单元1111输出的分块数据，作为目标压缩数据输出；若选择器1113接收到的信号表示，不满足触发压缩旁路的条件时，则选择器1113可以直接压缩处理单元1112继续采用具体的压缩算法，对分块数据进行后续压缩处理后得到压缩结果，作为目标压缩数据输出。可选的，上述压缩算法可以包括哈夫曼编码，游程编码以及基于字典的压缩算法等。可选的，分块压缩模块111可以对分块处理后的多个分块数据进行并行编码处理，但是，每个分块中的数据可以进行串行编码处理。可选的，上述编码处理也可以称为压缩处理。可选的，选择器1113可以为二路选择器。

以哈夫曼编码算法为例可以对压缩算法进行说明，分块压缩模块111中的分块处理单元1111可以根据接收到的分块处理参数，对接收到的原始数据进行分块处理得到多个分块数据，将分块数据输入至压缩处理单元1112，并且分块压缩模块111接收到的压缩处理参数中得知具体的压缩算法为哈夫曼编码算法。若此时压缩处理单元1112只对一个分块数据进行压缩处理，首先按照出现频率对该分块数据进行排序，最常见的数据排在首位，得到排序后的一个数列，压缩处理单元1112根据排序后的该数列建立对应的哈夫曼树，并根据实际已知的数据起始地址在哈夫曼树中查找压缩数据的尾部数据，另外，压缩处理单元1112在进行查找处理前，还可以根据哈夫曼树得到压缩数据中首部数据包含的信息，即分块数据中每个数据的大小、该数据块应用的压缩算法以及压缩标志位等信息。可选的，压缩处理单元1112对分块数据中的其中一个数据进行压缩处理时，处理该数据中的一个数值会将标记数据大小的数值加1，当记录的数值大于对应的分块数据的大小时，则该分块数据可以不再进行后续查找处理(即后续压缩处理)，退出压缩处理过程，此时，分块压缩模块111可以通过选择器1113，直接接收分块处理单元1111输出的该分块数据，作为目标压缩数据并输出；当记录的数值小于对应的分块数据的大小时，则该分块数据可以继续进行后续查找处理(即后续压缩处理)，此时，压缩处理单元1112可以将后续压缩处理结束后的压缩结果输入至选择器1113中，选择器1113将该压缩结果作为目标压缩数据并输出。

本实施例提供的一种数据处理装置，分块压缩模块中包括的分块处理单元、压缩处理单元以及选择器，通过分块处理单元可以对接收到的原始数据进行分块处理，得到分块数据，并通过压缩处理单元对分块数据进行压缩处理，得到已编码数据的信息，并根据已编码数据的信息判断该分块数据是否满足触发压缩旁路条件，若满足，则选择器可以直接接收分块处理单元得到的该分块数据作为目标压缩数据，否则，压缩处理单元还需要对分块数据进行后续压缩处理得到压缩结果，选择器可以将该压缩结果作为目标压缩数据，该过程可以直接将分块数据作为目标压缩结果输出，能够有效节省分块压缩模块的运算量以及存储开销，从而提高数据处理装置的运算效率；另外，数据处理装置中的分块压缩模块可以对多个分块数据采用并行方式进行压缩处理，有效的提高了压缩的效率。

图3为一实施例提供的数据处理方法的流程示意图，该方法可以通过图1所示的数据处理装置进行处理，本实施例涉及的是对数据进行压缩的过程。如图3所示，该方法包括：

S101、接收待处理数据。

具体的，数据处理装置中的处理电路通过分块压缩电路可以接收存储电路输入的待处理数据。其中，待处理数据格式可以与压缩后的数据格式一致，还可以与压缩后的数据格式不一致。可选的，上述处理电路可以包括主处理电路和/或从处理电路，其中，主处理电路可以为一个，从处理电路可以为多个。

可选的，所述处理参数可以包括分块处理参数以及压缩处理参数。

S102、根据处理参数对所述待处理数据进行分块处理，得到分块数据。

可选的，所述根据处理参数对所述待处理数据进行分块处理，得到分块数据，包括：根据分块处理参数对所述待处理数据进行分块处理，得到分块数据。

具体的，上述分块处理参数可以包括分块的大小，分块的行数和列数等信息。可选的，上述分块处理参数可以是分块压缩模块通过接收控制电路解析得到的，还可以是分块压缩模块预先存储的。可选的，数据处理装置中的分块压缩模块可以根据接收到的分块处理参数对待处理数据进行分块处理，得到分块数据。

S103、根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据的信息。

可选的，所述根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据的信息，包括：根据压缩处理参数对所述待处理数据进行压缩处理，得到已编码数据的所述信息。

具体的，上述压缩处理参数可以包括对分块数据进行压缩处理的具体压缩算法。可选的，上述压缩处理参数可以是分块压缩模块，通过接收控制电路解析得到的，还可以是分块压缩模块预先存储的。可选的，数据处理装置中的分块压缩模块，可以根据接收到的压缩处理参数对分块数据进行压缩处理，得到已编码数据的信息。在本实施例中，分块压缩模块根据具体的压缩算法，可以对分块数据执行一部分压缩处理过程，就可以得到已编码数据的信息。可选的，上述已编码数据的信息可以等于已编码数据的长度或大小。

S104、根据已编码数据的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，其中，所述处理压缩旁路的条件包括所述待处理数据的大小小于已编码数据的大小。

S105、若满足，则将所述分块数据作为目标压缩数据。

具体的，如果分块数据满足触发压缩旁路的条件时，分块压缩模块可以直接将分块数据作为目标压缩数据输出。可选的，分块压缩模块可以对多个分块数据进行并行处理，得到多个目标压缩数据。

本实施例提供的一种数据处理方法，接收待处理数据，根据处理参数对所述待处理数据进行分块处理，得到分块数据，根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据的信息，根据已编码数据的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，若满足，则将所述分块数据作为目标压缩数据，该方法有效节省了数据处理装置压缩处理的运算量以及数据处理装置的存储开销；另外，该方法还可以对分块数据进行并行处理，得到目标压缩数据，有效提高了压缩效率。

在其中一个实施例中，上述S104在根据已编码数据中的所述信息，判断所述分块数据是否满足触发压缩旁路的条件之后，还包括：若不满足，则采用压缩算法对所述分块数据进行后续压缩处理，得到目标压缩数据。

可选的，所述得到目标压缩数据的步骤之后，还包括：通过处理电路对所述目标压缩数据进行并行运算处理。

具体的，如果分块数据不满足触发压缩旁路的条件时，分块压缩模块可以采用具体的压缩算法，对该分块数据进行后续压缩处理后得到压缩结果，将该压缩结果可以作为目标压缩数据。可选的，上述压缩算法可以为哈夫曼编码，游程编码以及基于字典的压缩算法等。可选的，上述运算处理可以包括向量累加运算，向量内积运算，向量比较运算以及矩阵转置处理等。

需要说明的是，处理电路中的分块压缩模块可以根据分块处理参数以及压缩处理参数，对分块数据进行分块处理后得到分块数据，并对分块数据进行压缩处理，得到目标压缩数据，其中，若分块数据满足触发压缩旁路的条件时，则分块压缩模块可以直接将该分块数据作为目标压缩数据，否则，分块压缩模块需要对分块数据进行后续压缩处理后得到压缩数据，将该压缩数据作为目标压缩数据，处理电路可以对目标压缩数据进行不同的运算处理得到运算结果，并且处理电路还可以对该运算结果进行一些后续运算处理，并将后续运算处理的结果返回至分块压缩电路，最后分块压缩电路可以对后续运算处理的结果，进行分块处理以及压缩处理后，将压缩后的结果发送至存储电路，存储电路还可以对压缩后的结果进行下一阶段的运算处理。可选的，处理电路可以对目标压缩数据进行解压以及乘法运算，后续处理可以包括解压以及乘法运算等。

另外，处理电路中的分块压缩模块，可以根据分块处理参数以及压缩处理参数，对分块数据进行分块处理后得到分块数据，并对分块数据进行压缩处理，得到目标压缩数据，处理电路可以对目标压缩数据进行不同类型的运算处理得到运算结果，并且处理电路可以将该不同类型的运算结果返回至存储电路，存储电路还可以对该目标压缩数据进行下一阶段的运算处理。可选的，处理电路可以对目标压缩数据进行解压、累加以及激活运算，上述不同类型的运算结果可以包括解压、累加以及激活运算等。

本实施例提供的一种数据处理方法，若分块数据不满足触发压缩旁路的条件时，则分块压缩模块需要采用压缩算法对分块数据，继续进行后续压缩处理后得到压缩数据，并将该压缩数据作为目标压缩数据，否则，分块压缩模块可以不需要对该分块数据进行后续压缩处理，直接将该分块数据作为目标压缩数据，该方法能够节省数据处理装置压缩处理的运算量，以及数据处理装置的存储开销。

本申请实施例还提供了一个机器学习运算装置，其包括一个或多个在本申请中提到的数据处理装置，用于从其它处理装置中获取待运算数据和控制信息，执行指定的机器学习运算，执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上数据处理装置时，数据处理装置间可以通过特定的结构进行链接并传输数据，譬如，通过快速外部设备互连总线进行互联并传输数据，以支持更大规模的机器学习的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该机器学习运算装置具有较高的兼容性，可通过快速外部设备互连接口与各种类型的服务器相连接。

本申请实施例还提供了一个组合处理装置，其包括上述的机器学习运算装置，通用互联接口，和其它处理装置。机器学习运算装置与其它处理装置进行交互，共同完成用户指定的操作。图4为组合处理装置的示意图。

其它处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其它处理装置所包括的处理器数量不做限制。其它处理装置作为机器学习运算装置与外部数据和控制的接口，包括数据搬运，完成对本机器学习运算装置的开启、停止等基本控制；其它处理装置也可以和机器学习运算装置协作共同完成运算任务。

通用互联接口，用于在所述机器学习运算装置与其它处理装置间传输数据和控制指令。该机器学习运算装置从其它处理装置中获取所需的输入数据，写入机器学习运算装置片上的存储装置；可以从其它处理装置中获取控制指令，写入机器学习运算装置片上的控制缓存；也可以读取机器学习运算装置的存储模块中的数据并传输给其它处理装置。

可选的，该结构如图5所示，还可以包括存储装置，存储装置分别与所述机器学习运算装置和所述其它处理装置连接。存储装置用于保存在所述机器学习运算装置和所述其它处理装置的数据，尤其适用于所需要运算的数据在本机器学习运算装置或其它处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一些实施例里，还申请了一种芯片，其包括了上述机器学习运算装置或组合处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。如图6所示，图6提供了一种板卡，上述板卡除了包括上述芯片389以外，还可以包括其它的配套部件，该配套部件包括但不限于：存储器件390、接收装置391和控制器件392；

所述存储器件390与所述芯片封装结构内的芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接收装置与所述芯片封装结构内的芯片电连接。所述接收装置用于实现所述芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接收装置可以为标准快速外部设备互连接口。比如，待处理数据由服务器通过标准快速外部设备互连接口传递至所述芯片，实现数据转移。优选的，当采用快速外部设备互连3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接收装置还可以是其它的接口，本申请并不限制上述其它的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述芯片的计算结果仍由所述接收装置传送回外部设备(例如服务器)。

所述控制器件与所述芯片电连接。所述控制器件用于对所述芯片的状态进行监控。具体的，所述芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

电子设备可以为数据处理器、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的电路组合，但是本领域技术人员应该知悉，本申请并不受所描述的电路组合方式的限制，因为依据本申请，某些电路可以采用其它方式或者结构实现。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的器件和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理装置，其特征在于，所述数据处理装置用于执行机器学习计算；所述数据处理装置包括处理电路以及控制电路，所述处理电路的第一输入端与所述控制电路的输出端连接，所述处理电路包括分块压缩模块；

其中，所述控制电路用于解析数据处理指令得到数据的处理参数，并将所述处理参数输入至所述分块压缩模块；所述分块压缩模块用于根据所述处理参数，对接收到的原始数据进行分块处理得到分块数据，并对所述分块数据进行压缩处理，得到已编码数据的信息；所述分块压缩模块还用于根据已编码数据的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，若满足，则将所述分块数据作为目标压缩数据；若不满足，则继续采用压缩算法对所述分块数据进行压缩处理得到目标压缩数据；其中，所述触发压缩旁路的条件包括分块数据的大小小于已编码数据的大小。

2.根据权利要求1所述的数据处理装置，其特征在于，所述数据处理装置还包括存储电路以及控制电路，所述存储电路用于存储原始数据，所述控制电路用于获取计算指令，并解析所述计算指令得到多个运算指令，将多个所述运算指令输入至所述分块压缩模块中。

3.根据权利要求2所述的数据处理装置，其特征在于，所述存储电路的第一输出端与所述处理电路的第二输入端连接，所述存储电路的第二输出端与所述控制电路的输入端连接，所述存储电路的第一输入端与所述处理电路的输出端连接，所述存储电路的第二输入端与所述控制电路的第二输出端连接。

4.根据权利要求2所述的数据处理装置，其特征在于，所述分块压缩模块包括分块处理单元、压缩处理单元以及选择器，所述分块处理单元的第一输出端与所述压缩处理单元的输入端连接，所述压缩处理单元的输出端与所述选择器的第一输入端连接，所述分块处理单元的第二输出端与所述选择器的第二输入端连接；

5.一种数据处理方法，其特征在于，所述方法包括：

接收待处理数据；

根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据的信息；根据已编码数据的所述信息，判断所述分块数据是否满足触发压缩旁路的条件，其中，所述触发压缩旁路的条件包括所述分块数据的大小小于已编码数据的大小；

若满足，则将所述分块数据作为目标压缩数据；

若不满足，则继续采用压缩算法对所述分块数据进行压缩处理得到目标压缩数据。

6.根据权利要求5所述的方法，其特征在于，所述处理参数包括分块处理参数以及压缩处理参数。

7.根据权利要求6所述的方法，其特征在于，所述根据处理参数对所述待处理数据进行分块处理，得到分块数据，包括：根据分块处理参数对所述待处理数据进行分块处理，得到分块数据。

8.根据权利要求6所述的方法，其特征在于，所述根据所述处理参数对所述分块数据进行压缩处理，得到已编码数据的信息，包括：根据压缩处理参数对所述待处理数据进行压缩处理，得到已编码数据的信息。

9.根据权利要求5所述的方法，其特征在于，所述得到目标压缩数据的步骤之后，还包括：通过处理电路对所述目标压缩数据进行并行运算处理。

10.一种机器学习运算装置，其特征在于，所述机器学习运算装置包括一个或多个如权利要求1-4任一项所述的数据处理装置，用于从其它处理装置中获取待运算输入数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其它处理装置；

当所述机器学习运算装置包含多个所述数据处理装置时，所述多个所述数据处理装置间可以通过特定的结构进行连接并传输数据；

11.一种组合处理装置，其特征在于，所述组合处理装置包括如权利要求10所述的机器学习运算装置，通用互联接口和其它处理装置；

所述机器学习运算装置与所述其它处理装置进行交互，共同完成用户指定的计算操作。

12.根据权利要求11所述的组合处理装置，其特征在于，还包括：存储装置，该存储装置分别与所述机器学习运算装置和所述其它处理装置连接，用于保存所述机器学习运算装置和所述其它处理装置的数据。

13.一种神经网络芯片，其特征在于，所述神经网络芯片包括如权利要求10所述的机器学习运算装置或如权利要求11所述的组合处理装置或如权利要求12所述的组合处理装置。

14.一种电子设备，其特征在于，所述电子设备包括如所述权利要求13所述的神经网络芯片。

15.一种板卡，其特征在于，所述板卡包括：存储器件、接收装置和控制器件以及如权利要求13所述的神经网络芯片；

其中，所述神经网络芯片与所述存储器件、所述控制器件以及所述接收装置分别连接；

所述存储器件，用于存储数据；

所述接收装置，用于实现所述芯片与外部设备之间的数据传输；

所述控制器件，用于对所述芯片的状态进行监控。

16.根据权利要求15所述的板卡，其特征在于，

所述存储器件包括：多组存储单元，每一组所述存储单元与所述芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述芯片包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接收装置为：标准PCIE接口。