CN111258641A

CN111258641A - 运算方法、装置及相关产品

Info

Publication number: CN111258641A
Application number: CN201811456735.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-09
Anticipated expiration: 2038-11-30
Also published as: CN111258641B

Abstract

本公开涉及一种运算方法、装置及相关产品。机器学习装置包括一个或多个指令处理装置，从其他处理装置中获取待运算数据和控制信息，并执行指定的机器学习运算，将执行结果传递给其他处理装置；当机器学习运算装置包含多个指令处理装置时，多个指令处理装置间可以通过特定的结构进行连接并传输数据。多个指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据；多个指令处理装置共享同一控制系统或拥有各自的控制系统、且共享内存或者拥有各自的内存；多个指令处理装置的互联方式是任意互联拓扑。本公开实施例所提供的运算方法、装置及相关产品，对多个中间结果进行循环累加运算，降低了数据访存量和计算量，保证了计算精度。

Description

运算方法、装置及相关产品

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理装置、方法及相关产品。

背景技术

随着科技的不断发展，机器学习，尤其是神经网络算法的使用越来越广泛。其在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。但由于神经网络算法的复杂度越来越高，所涉及的数据运算种类和数量不断增大，对如运算器的数量等硬件的要求也不断提高。相关技术中，通过减少或降低数据访存量、计算量的方式降低硬件需求，但会对计算的精度造成损失。如何在保证精度的前提下，降低数据访存量、计算量是亟待解决的问题。

发明内容

有鉴于此，本公开提供了一种数据处理装置、方法及相关产品，以解决保证计算精度与降低数据访存量、计算量无法同时满足的问题。

根据本公开的第一方面，提供了一种数据处理装置，所述装置用于执行机器学习计算，所述装置包括控制模块和处理模块，所述处理模块包括数据传递子模块和累加子模块：

所述控制模块用于获取计算指令，并获取执行所述计算指令所需的输入数据；

所述数据传递子模块用于根据所述计算指令对所述输入数据进行处理，得到多个中间结果，并将所述多个中间结果依次发送至所述累加子模块；

所述累加子模块用于对所述多个中间结果进行循环累加运算，得到所述计算指令的计算结果。

根据本公开的第二方面，提供了一种机器学习运算装置，所述装置包括：

一个或多个上述第一方面所述的数据处理装置，用于从其他处理装置中获取输入数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；

当所述机器学习运算装置包含多个所述数据处理装置时，所述多个所述数据处理装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述数据处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算；多个所述数据处理装置共享同一控制系统或拥有各自的控制系统；多个所述数据处理装置共享内存或者拥有各自的内存；多个所述数据处理装置的互联方式是任意互联拓扑。

根据本公开的第三方面，提供了一种组合处理装置，所述装置包括：

上述第二方面所述的机器学习运算装置、通用互联接口和其他处理装置；

所述机器学习运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作。

根据本公开的第四方面，提供了一种机器学习芯片，所述机器学习芯片包括上述第二方面所述的机器学习络运算装置或上述第三方面所述的组合处理装置。

根据本公开的第五方面，提供了一种机器学习芯片封装结构，该机器学习芯片封装结构包括上述第四方面所述的机器学习芯片。

根据本公开的第六方面，提供了一种板卡，该板卡包括上述第五方面所述的机器学习芯片封装结构。

根据本公开的第七方面，提供了一种电子设备，所述电子设备包括上述第四方面所述的机器学习芯片或上述第六方面所述的板卡。

根据本公开的第八方面，提供了一种数据处理方法，所述方法应用于数据处理装置，所述装置用于执行机器学习计算，所述方法包括：

获取计算指令，并获取执行所述计算指令所需的输入数据；

根据所述计算指令对所述输入数据进行处理，得到多个中间结果，并将所述多个中间结果依次发出；

对所述多个中间结果进行循环累加运算，得到所述计算指令的计算结果。

本公开实施例所提供的数据处理装置、方法及相关产品，该装置包括：控制模块和处理模块，处理模块包括数据传递子模块和累加子模块。控制模块用于获取计算指令，并获取执行计算指令所需的输入数据。数据传递子模块用于根据计算指令对输入数据进行处理，得到多个中间结果，并将多个中间结果依次发送至累加子模块。累加子模块用于对多个中间结果进行循环累加运算，得到计算指令的计算结果。本公开实施例所提供的数据处理装置、方法及相关产品，通过对多个中间结果进行循环累加的方式降低了数据访存量和计算量，同时保证计算的精度无损，且能够有效提高数据处理速度。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的数据处理装置的框图。

图2示出根据本公开一实施例的数据处理装置的应用场景的示意图。

图3示出根据本公开一实施例的数据处理装置的框图。

图4示出根据本公开一实施例的数据处理装置的框图。

图5a-图5d示出根据本公开一实施例的数据处理装置中处理模块的框图。

图6a、图6b示出根据本公开一实施例的组合处理装置的框图。

图7示出根据本公开一实施例的板卡的结构示意图。

图8示出根据本公开一实施例的数据处理方法的流程图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的数据处理装置的框图。该装置用于执行机器学习计算。如图1所示，该装置包括控制模块11和处理模块12。处理模块12包括数据传递子模块121和累加子模块122。

控制模块11用于获取计算指令，并获取执行计算指令所需的输入数据。数据传递子模块121用于根据计算指令对输入数据进行处理，得到多个中间结果，并将多个中间结果依次发送至累加子模块122。累加子模块122用于对多个中间结果进行循环累加运算，得到计算指令的计算结果。

在本实施例中，循环累加运算可以是将“当前运算周期”对中间结果进行加法计算得到的累加结果，在“之后运算周期”的对中间结果进行加法运算时，将中间结果与累加结果相加得到新的累加结果。“之后运算周期”可以是“当前运算周期”之后的第一个、第二个、第三个等运算周期，可以根据装置的计算能力等时机需要对“之后运算周期”是“当前运算周期”之后的第几个运算周期进行设置，本公开对此不作限制。

在本实施例中，该装置可以包括一个或多个控制模块，以及一个或多个处理模块，可以根据实际需要对控制模块和处理模块的数量进行设置，本公开对此不作限制。

本公开实施例所提供的数据处理装置，包括：控制模块和处理模块，处理模块包括数据传递子模块和累加子模块。控制模块用于获取计算指令，并获取执行计算指令所需的输入数据。数据传递子模块用于根据计算指令对输入数据进行处理，得到多个中间结果，并将多个中间结果依次发送至累加子模块。累加子模块用于对多个中间结果进行循环累加运算，得到计算指令的计算结果。本公开实施例所提供的数据处理装置，通过对多个中间结果进行循环累加的方式降低了数据访存量和计算量，同时保证计算的精度无损，且能够有效提高数据处理速度。

在一种可能的实现方式中，可以根据装置的计算能力等实际需要对累加子模块的循环累加过程进行设置，以下给出方式一、方式二两种循环累加过程的示例。需要说明的是，本领域技术人员可以根据实际需要对循环累加过程进行设置，本公开对此不作限制。

在一种可能的实现方式中，对于方式一，累加子模块122对多个中间结果进行循环累加运算，可以包括：

在接收到中间结果的第一运算周期，将中间结果与第一运算周期的第一中间数据相加，得到第一累加结果；

将第一累加结果存储为下一个运算周期的第一中间数据；

在未接收到中间结果的第二运算周期，将第二运算周期的第一中间数据确定为计算结果，

其中，初始运算周期的第一中间数据的值为零。

在该实现方式中，方式一中所描述的“接收到中间结果的第一运算周期”可以是累加子模块接收到中间结果的任意一个运算周期，“未接收到中间结果的第二运算周期”可以是在累加子模块未接收到中间结果的一个运算周期。“接收到中间结果的第一运算周期”所描述的是累加子模块循环反复执行的过程，“未接收到中间结果的第二运算周期”是累加子模块最终确定计算结果的过程。累加子模块可以循环执行多个“接收到中间结果的第一运算周期”，执行一个“未接收到中间结果的第二运算周期”，已完成对多个中间结果的运算。

举例来说，假定多个中间结果分别为1、2、3。累加子模块通过方式一对多个中间结果进行循环累加的过程如下。其中，第一个运算周期、第二个运算周期和第三个运算周期相当于上述方式一中“接收到中间结果的第一运算周期”，第四个运算周期相当于上述方式一中“未接收到中间结果的第二运算周期”。

在第一个运算周期中，累加子模块接收到中间结果“1”，将中间结果“1”与第一个运算周期的第一中间数据“0”相加，得到第一个运算周期的第一累加结果“0+1”。而后将第一累加结果“0+1”存储为第二个运算周期(也即下一运算周期)的第一中间数据“0+1”。

在第二个运算周期中，累加子模块接收到中间结果“2”，将中间结果“2”与第二个运算周期的第一中间数据“0+1”相加，得到第二个运算周期的第一累加结果“0+1+2”。而后将第二个运算周期的第一累加结果“0+1+2”存储为第三个运算周期(也即下一运算周期)的第一中间数据“0+1+2”。

在第三个运算周期中，累加子模块接收到中间结果“3”，将中间结果“3”与第三个运算周期的第一中间数据“0+1+2”相加，得到第三个运算周期的第一累加结果“0+1+2+3”。而后将第三个运算周期的第一累加结果“0+1+2+3”存储为第四个运算周期(也即下一运算周期)的第一中间数据“0+1+2+3”。

在第四个运算周期中，累加子模块未接收到中间结果，将第四个运算周期的第一中间数据“0+1+2+3”确定为计算结果。

在一种可能的实现方式中，对于方式二，累加子模块122对多个中间结果进行循环累加运算，还可以包括：

在接收到中间结果的第三运算周期，将中间结果与第三运算周期的第三中间数据相加，得到第二累加结果；

将第三运算周期的第二中间数据存储为下一个运算周期的第三中间数据，并将第二累加结果存储为下一个运算周期的第二中间数据；

在未接收到中间结果的第四运算周期，将第四运算周期的第二中间数据与第四运算周期的第三中间数据相加，得到计算结果。

其中，初始运算周期的第二中间数据及第三中间数据的值为零。

在该实现方式中，方式二中所描述的“接收到中间结果的第三运算周期”可以是累加子模块接收到中间结果的任意一个运算周期，“未接收到中间结果的第四运算周期”可以是在累加子模块未接收到中间结果的一个运算周期。“接收到中间结果的第三运算周期”所描述的是累加子模块循环反复执行的过程，“未接收到中间结果的第四运算周期”是累加子模块最终确定计算结果的过程。累加子模块可以循环执行多个“接收到中间结果的第三运算周期”，执行一个“未接收到中间结果的第四运算周期”，已完成对多个中间结果的运算。

举例来说，假定多个中间结果分别为1、2、3、4。累加子模块通过方式二对多个中间结果进行循环累加的过程如下。其中，第一个运算周期、第二个运算周期、第三个运算周期和第四个运算周期相当于上述方式二中“接收到中间结果的第三运算周期”，第五个运算周期相当于上述方式二中“未接收到中间结果的第四运算周期”。

在第一个运算周期中，累加子模块接收到中间结果“1”，将中间结果“1”与第一个运算周期的第三中间数据“0”相加，得到第一个运算周期的第二累加结果“0+1”。而后将第一个运算周期的第二中间数据“0”存储为第二个运算周期(也即下一运算周期)的第三中间数据，以及将第一个运算周期的第二累加结果“0+1”存储为第二个运算周期(也即下一运算周期)的第二中间数据。

在第二个运算周期中，累加子模块接收到中间结果“2”，将中间结果“2”与第二个运算周期的第三中间数据“0”相加，得到第二个运算周期的第二累加结果“0+2”。而后将第二个运算周期的第二中间数据“0+1”存储为第三个运算周期(也即下一运算周期)的第三中间数据，以及将第二个运算周期的第二累加结果“0+2”存储为第三个运算周期(也即下一运算周期)的第二中间数据。

在第三个运算周期中，累加子模块接收到中间结果“3”，将中间结果“3”与第三个运算周期的第三中间数据“0+1”相加，得到第三个运算周期的第二累加结果“0+1+3”。而后将第三个运算周期的第二中间数据“0+2”存储为第四个运算周期(也即下一运算周期)的第三中间数据，以及将第三个运算周期的第二累加结果“0+1+3”存储为第四个运算周期(也即下一运算周期)的第二中间数据。

在第四个运算周期中，累加子模块接收到中间结果“4”，将中间结果“4”与第四个运算周期的第三中间数据“0+2”相加，得到第四个运算周期的第二累加结果“0+2+4”。而后将第四个运算周期的第二中间数据“0+1+3”存储为第五个运算周期(也即下一运算周期)的第三中间数据，以及将第四个运算周期的第二累加结果“0+2+4”存储为第五个运算周期(也即下一运算周期)的第二中间数据。

在第五个运算周期中，累加子模块确定未接收到中间结果，将第五个运算周期的第二中间数“0+2+4”与第五个运算周期的第三中间数据“0+1+3”相加，得到第五个运算周期的第二累加结果“0+1+2+3+4”。将该第五个运算周期的第二累加结果“0+1+2+3+4”确定为计算结果。

在一种可能的实现方式中，机器学习计算可以包括人工神经网络运算，输入数据可以包括输入神经元数据和权值数据，计算结果为输出神经元数据。

在一种可能的实现方式中，输入数据的数据类型可以包括指数型和动态定点型中的至少一项，输入神经元数据和权值数据的数据类型不同。

其中，数据传递子模块121用于根据计算指令对输入数据进行处理，得到多个中间结果，可以包括：数据传递子模块用于根据计算指令对权值数据或输入神经元数据进行移位运算，得到中间结果。

其中，指数型的输入数据可以包括指数位，以指定值为底数、指数位存储的数据为指数进行计算所得到的数据表示指数型的输入数据的数值。动态定点型的输入数据可以包括小数点位和整数位，小数点位所存储数据用于标记动态定点型的输入数据的小数点在整数位所存储数据中的位置，以区分整数位的数据中的整数部分和小数部分。其中，指数型的输入数据所对应的指定值与输入数据的进位制相同。例如，假定指定值为2，则输入数据需为二进制数据。这样，才能保证对输入数据进行移位运算。

在该实现方式中，输入神经元数据可以是指数型的数据，而权值数据是动态定点型数据。或者输入神经元数据可以是动态定点型的数据，而权值数据是指数型数据。本领域技术人员可以根据实际需要对输入神经元数据和权值数据的类型进行设置，本公开对此不作限制。

在该实现方式中，根据计算指令对权值数据或输入神经元数据进行移位运算可以是：在根据计算指令确定需要对权值数据和输入神经元数据所进行运算为相乘运算时，可以通过对输入神经元数据或权值数据进行移位的运算方式，实现对权值数据和输入神经元数据之间进行相乘运算的目的。其中，移位运算可以是根据权值数据和输入神经元数据中的指数型的数据确定移动位数和移动方向，而后将权值数据和输入神经元数据中的动态定点型的数据的小数点位置按照移动位数和移动方向进行移动，并通过改变存储在小数点位的数据的值来表示小数点的移动方向和移动位数，进而确定计算结果。也即将权值数据和输入神经元数据中的指数型的数据中指数位所存储的数值与权值数据和输入神经元数据中的动态定点型的数据的小数点位存储数据的数值相加，得到相加结果，将原动态定点型的数据的小数点位所存储数据替换为相加结果，便可以得到权值数据和输入神经元数据相乘的计算结果。

在该实现方式中，输入数据的进位制可以是二进制、十进制、十六进制等，本公开对此不作限制。

举例来说，图2示出根据本公开一实施例的数据处理装置的应用场景的示意图。如图2所示，示出数据传输通道对指数型的权值数据、动态定点型的输入神经元数据进行运算的一个示例假定指数型的权值数据为二进制的“00001”(该权值数据对应的十进制数为2¹)。动态定点型的输入神经元数据为二进制的“11001000，1000”(该输入神经元数据对应的十进制数为12.5)，其中前8位为整数位，后4位为小数点位。控制模块获取以上两个输入数据以及计算指令。处理模块在根据计算指令确定需要对指数型的权值数据“00001”和动态定点型的输入神经元数据“11001000，1000”所进行的运算为相乘时，可以根据指数型的权值数据“00001”确定需要对输入神经元数据所进行的移位运算为“小数点位置向右移动1位”。也即，将小数点位的数据“0100”与权值数据的“00001”相加，得到新的小数点位需要存储的新数据“0101”，将新数据“0101”存储至输入神经元数据的小数点位，得到指数型的权值数据为二进制的“00001”与动态定点型的输入神经元数据为二进制的“11001000，0100”相乘的计算结果“11001000，0101”(该计算结果对应的十进制数为25)。其中，动态定点型的输入神经元数据“11001000，0100”中的“，”是为了区分其整数位和小数点位，实际使用中可以不设置该“，”。下文动态定点型的输入数据中的“，”与此处相同，后续不再作解释。

在一种可能的实现方式中，该装置还可以包括第一类型转换模块。第一类型转换模块用于将接收到的待处理数据转换为以指定值为底数的第一数据，并根据第一数据的指数，生成指数型的输入数据。其中，指数型的输入数据的指数位用于存储指数。

在该实现方式中，第一类型转换模块所接收到的待处理数据所转换的第一数据的指数需是整数，以保证对输入数据能够进行移位运算。可以根据实际需要对指数位所占用的比特位数进行设置，例如，5比特，本公开对此不作限制。

在一种可能的实现方式中，对于指数型的输入数据其还可以包括指定值位，用于标记该输入数据的指定值。

在一种可能的实现方式中，指数位中还包括符号位，用于表示指数位所存储数据的正负。例如，可以设定指数型的输入数据占用5个比特，第1个比特为符号位，第2-5比特为指数位。可以设置在符号位所存储的数为0时，指数位所存储的数据为正数，在符号位所存储的数为1时，指数位所存储的数据为负数。

举例来说，假定接收到的待处理数据为1024，设定的指定值为2，输入数据为二进制数。第一类型转换模块可以将待处理数据“1024”转换为以2(指定值)为底数的第一数据“2¹⁰”。根据第一数据“2¹⁰”的指数“10”生成指数型的、二进制的输入数据“01010”。接收到的待处理数据为0.5，设定的指定值为2，输入数据为二进制数。第一类型转换模块可以将待处理数据“0.5”转换为以2(指定值)为底数的第一数据“2^-1”。根据第一数据“2^-1”的指数“-1”生成指数型的、二进制的输入数据“10001”。

在一种可能的实现方式中，该装置还可以包括第二类型转换模块。第二类型转换模块用于对接收到的待处理数据进行转换，得到分别表征待处理数据的整数部分的数值的第二数据和表征小数部分的数值的第三数据，并根据第二数据、第三数据、以及待处理数据的小数点位置，生成动态定点型的输入数据。其中，动态定点型的输入数据的整数位用于存储第二数据和第三数据，动态定点型的输入数据的小数点位所存储的数据用于标记待处理数据的小数点在整数位所存储数据中的位置。

在该实现方式中，第二类型转换模块所接收到的待处理数据可以是小数。例如，123.4(十进制)等。可以根据计算需要对动态定点型的输入数据所占用的总比特数、以及整数位和小数点位所占用的比特数进行设置。例如，可以设置动态定点型的输入数据占用12比特，其中，整数位占用8比特，小数点位占用4比特。本领域技术人员可以根据实际需要对动态定点型的输入数据占用的总比特数、以及整数位和小数点位所占用的比特数进行设置，本公开对此不作限制。

举例来说，假定接收到的待处理数据为24.5，输入数据为二进制数，整数位占用10比特，小数点位占用4比特。第二类型转换模块可以将待处理数据的整数部分“24”转换二进制的第二数据“11000”，将待处理数据的小数部分“0.5”转换为二进制的第三数据“0.1000”。可以确定动态定点型的输入数据的整数位存储“0110001000”，由于小数点位置在整数位存储的“0110001000”的第六位之后，可以用“0110”表示小数点的位置。那么，最终第二类型转换模块根据待处理数据“24.5”所生成的动态定点型的输入数据为“0110001000，0110”。

图3示出根据本公开一实施例的数据处理装置的框图。在一种可能的实现方式中，如图3所示，该装置还可以包括存储模块13。存储模块13用于存储待查找向量。

在该实现方式中，存储模块可以包括内存、缓存和寄存器中的一种或多种，缓存可以包括速暂存缓存。可以根据需要将待查找向量在存储模块中的内存、缓存和/或寄存器中，本公开对此不作限制。

在一种可能的实现方式中，该装置还可以包括直接内存访问模块，用于从存储模块中读取或者存储数据。

在一种可能的实现方式中，如图3所示，控制模块11可以包括指令存储子模块111、指令处理子模块112和队列存储子模块113。

指令存储子模块111用于存储向量查找指令。

指令处理子模块112用于对向量查找指令进行解析，得到向量查找指令的操作码和操作域。

队列存储子模块113用于存储指令队列，指令队列包括按照执行顺序依次排列的多个待执行指令，多个待执行指令可以包括向量查找指令。多个待执行指令可以包括还可以包括与向量查找指令相关的其他计算指令。

在该实现方式中，可以根据待执行指令的接收时间、优先级别等对多个待执行指令的执行顺序进行排列获得指令队列，以便于根据指令队列依次执行多个待执行指令。

在一种可能的实现方式中，如图3所示，控制模块11还可以包括依赖关系处理子模块114。

依赖关系处理子模块114，用于在确定多个待执行指令中的第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系时，将第一待执行指令缓存在指令存储子模块112中，在第零待执行指令执行完毕后，从指令存储子模块112中提取第一待执行指令发送至处理模块12。其中，第一待执行指令和第零待执行指令是多个待执行指令中的指令。

其中，第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系包括：存储第一待执行指令所需数据的第一存储地址区间与存储第零待执行指令所需数据的第零存储地址区间具有重叠的区域。反之，第一待执行指令与第零待执行指令之间没有关联关系可以是第一存储地址区间与第零存储地址区间没有重叠区域。

通过这种方式，可以根据待执行指令之间的依赖关系，使得在先的待执行令执行完毕之后，再执行在后的待执行指令，保证计算结果的准确。

图4示出根据本公开一实施例的数据处理装置的框图。在一种可能的实现方式中，如图4所示，处理模块12可以包括主处理子模块124和多个从处理子模块125。每个从处理子模块125可以包括数据传输子模块121和累加子模块122(图中未示出)。

控制模块11，还用于解析计算指令得到多个运算指令，并将输入数据和多个运算指令发送至主处理子模块124。

主处理子模块124，用于对输入数据执行前序处理，以及与多个从处理子模块125进行数据和运算指令的传输。

从处理子模块125，用于根据从主处理子模块124传输的数据和运算指令并行执行中间运算得到多个中间结果，并将多个中间结果传输给主处理子模块122。

在该实现方式中，中间运算可以是对数据进行算术、逻辑等运算。其中，在输入数据包括输入神经元数据和权值数据，且输入神经元数据和权值数据分别对应不同的上述数据类型时，若根据运算指令确定所执行的中间运算为将输入神经元数据和权值数据相乘时，可以对输入神经元数据或权值数据进行移位运算，得到中间结果。

主处理子模块124，还用于对多个中间结果执行后续处理，得到计算结果，并将计算结果存入目标地址中。

需要说明的是，本领域技术人员可以根据实际需要对主处理子模块和多个从处理子模块之间的连接方式进行设置，以实现对处理模块的架构设置，例如，处理模块的架构可以是“H”型架构、阵列型架构、树型架构等，本公开对此不作限制。

图5a示出根据本公开一实施例的数据处理装置中处理模块的框图。在一种可能的实现方式中，如图5a所示，处理模块12还可以包括一个或多个分支处理子模块126，该分支处理子模块126用于转发主处理子模块124和从处理子模块125之间的数据和/或运算指令。其中，主处理子模块124与一个或多个分支处理子模块126连接。这样，处理模块中的主处理子模块、分支处理子模块和从处理子模块之间采用“H”型架构连接，通过分支处理子模块转发数据和/或运算指令，节省了对主处理子模块的资源占用，进而提高指令的处理速度。

图5b示出根据本公开一实施例的数据处理装置中处理模块的框图。在一种可能的实现方式中，如图5b所示，多个从处理子模块125呈阵列分布。

每个从处理子模块125与相邻的其他从处理子模块125连接，主处理子模块124连接多个从处理子模块125中的k个从处理子模块125，k个从处理子模块125为：第1行的n个从处理子模块125、第m行的n个从处理子模块125以及第1列的m个从处理子模块125。

其中，如图5b所示，k个从处理子模块仅包括第1行的n个从处理子模块、第m行的n个从处理子模块以及第1列的m个从处理子模块，即该k个从处理子模块为多个从处理子模块中直接与主处理子模块连接的从处理子模块。其中，k个从处理子模块，用于在主处理子模块以及多个从处理子模块之间的数据以及指令的转发。这样，多个从处理子模块呈阵列分布，可以提高主处理子模块向从处理子模块发送数据和/或运算指令速度，进而提高指令的处理速度。

图5c示出根据本公开一实施例的数据处理装置中处理模块的框图。在一种可能的实现方式中，如图5c所示，处理模块还可以包括树型子模块127。该树型子模块127包括一个根端口401和多个支端口402。根端口401与主处理子模块124连接，多个支端口402与多个从处理子模块125分别连接。其中，树型子模块127具有收发功能，用于转发主处理子模块124和从处理子模块125之间的数据和/或运算指令。这样，通过树型子模块的作用使得处理模块呈树型架构连接，并利用树型子模块的转发功能，可以提高主处理子模块向从处理子模块发送数据和/或运算指令速度，进而提高指令的处理速度。

在一种可能的实现方式中，树型子模块127可以为该装置的可选结果，其可以包括至少一层节点。节点为具有转发功能的线结构，节点本身不具备运算功能。最下层的节点与从处理子模块连接，以转发主处理子模块124和从处理子模块125之间的数据和/或运算指令。特殊地，如树型子模块具有零层节点，该装置则无需树型子模块。

在一种可能的实现方式中，树型子模块127可以包括n叉树结构的多个节点，n叉树结构的多个节点可以具有多个层。

举例来说，图5d示出根据本公开一实施例的数据处理装置中处理模块的框图。如图5d所示，n叉树结构可以是二叉树结构，树型子模块127包括2层节点01。最下层节点01与从处理子模块125连接，以转发主处理子模块124和从处理子模块125之间的数据和/或运算指令。

在该实现方式中，n叉树结构还可以是三叉树结构等，n为大于或等于2的正整数。本领域技术人员可以根据需要对n叉树结构中的n以及n叉树结构中节点的层数进行设置，本公开对此不作限制。

需要说明的是，尽管以上述实施例作为示例介绍了数据处理装置如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各模块，只要符合本公开的技术方案即可。

本公开提供一种机器学习运算装置，该机器学习运算装置可以包括一个或多个上述数据处理装置，用于从其他处理装置中获取输入数据和控制信息，执行指定的机器学习运算。该机器学习运算装置可以从其他机器学习运算装置或非机器学习运算装置中获得计算指令，并将执行结果通过I/O接口传递给外围设备(也可称其他处理装置)。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上数据处理装置时，数据处理装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的神经网络的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该机器学习运算装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

图6a示出根据本公开一实施例的组合处理装置的框图。如图6a所示，该组合处理装置包括上述机器学习运算装置、通用互联接口和其他处理装置。机器学习运算装置与其他处理装置进行交互，共同完成用户指定的操作。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为机器学习运算装置与外部数据和控制的接口，包括数据搬运，完成对本机器学习运算装置的开启、停止等基本控制；其他处理装置也可以和机器学习运算装置协作共同完成运算任务。

通用互联接口，用于在机器学习运算装置与其他处理装置间传输数据和控制指令。该机器学习运算装置从其他处理装置中获取所需的输入数据，写入机器学习运算装置片上的存储装置；可以从其他处理装置中获取控制指令，写入机器学习运算装置片上的控制缓存；也可以读取机器学习运算装置的存储模块中的数据并传输给其他处理装置。

图6b示出根据本公开一实施例的组合处理装置的框图。在一种可能的实现方式中，如图6b所示，该组合处理装置还可以包括存储装置，存储装置分别与机器学习运算装置和所述其他处理装置连接。存储装置用于保存在机器学习运算装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本机器学习运算装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

本公开提供一种机器学习芯片，该芯片包括上述机器学习运算装置或组合处理装置。

本公开提供一种机器学习芯片封装结构，该机器学习芯片封装结构包括上述机器学习芯片。

本公开提供一种板卡，图7示出根据本公开一实施例的板卡的结构示意图。如图7所示，该板卡包括上述机器学习芯片封装结构或者上述机器学习芯片。板卡除了包括机器学习芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392。

存储器件390与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)通过总线连接，用于存储数据。存储器件390可以包括多组存储单元393。每一组存储单元393与机器学习芯片389通过总线连接。可以理解，每一组存储单元393可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。

在一个实施例中，存储器件390可以包括4组存储单元393。每一组存储单元393可以包括多个DDR4颗粒(芯片)。在一个实施例中，机器学习芯片389内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组存储单元393中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组存储单元393包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在机器学习芯片389中设置控制DDR的控制器，用于对每个存储单元393的数据传输与数据存储的控制。

接口装置391与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)电连接。接口装置391用于实现机器学习芯片389与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，接口装置391可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至机器学习芯片289，实现数据转移。优选的，当采用PCIE 3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，接口装置391还可以是其他的接口，本公开并不限制上述其他的接口的具体表现形式，接口装置能够实现转接功能即可。另外，机器学习芯片的计算结果仍由接口装置传送回外部设备(例如服务器)。

控制器件392与机器学习芯片389电连接。控制器件392用于对机器学习芯片389的状态进行监控。具体的，机器学习芯片389与控制器件392可以通过SPI接口电连接。控制器件392可以包括单片机(Micro Controller Unit，MCU)。如机器学习芯片389可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，机器学习芯片389可以处于多负载和轻负载等不同的工作状态。通过控制器件可以实现对机器学习芯片中多个处理芯片、多个处理和/或多个处理电路的工作状态的调控。

本公开提供一种电子设备，该电子设备包括上述机器学习芯片或板卡。

电子设备可以包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

交通工具可以包括飞机、轮船和/或车辆。家用电器可以包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机。医疗设备可以包括核磁共振仪、B超仪和/或心电图仪。

图8示出根据本公开一实施例的数据处理方法的流程图。如图8所示，该方法应用于上述数据处理装置，数据处理装置用于执行机器学习计算。该方法包括步骤S51-步骤S53。

在步骤S51中，获取计算指令，并获取执行计算指令所需的输入数据。

在步骤S52中，根据计算指令对输入数据进行处理，得到多个中间结果，并将多个中间结果依次发出。

在步骤S53中，对多个中间结果进行循环累加运算，得到计算指令的计算结果。

在一种可能的实现方式中，对多个中间结果进行循环累加运算，可以包括：

将第一累加结果存储为下一个运算周期的第一中间数据；

其中，初始运算周期的第一中间数据的值为零。

在未接收到中间结果的第四运算周期，将第四运算周期的第二中间数据与第四运算周期的第三中间数据相加，得到计算结果，

在一种可能的实现方式中，机器学习计算可以包括：人工神经网络运算，输入数据可以包括：输入神经元数据和权值数据；计算结果为输出神经元数据。

在一种可能的实现方式中，输入数据的数据类型包括指数型和动态定点型中的至少一项，输入神经元数据和权值数据的数据类型不同。

其中，根据计算指令对输入数据进行处理，得到多个中间结果，可以包括：根据计算指令对权值数据或输入神经元数据进行移位运算，得到中间结果。

其中，指数型的输入数据包括指数位，以指定值为底数、指数位存储的数据为指数进行计算所得到的数据表示指数型的输入数据的数值。动态定点型的输入数据包括小数点位和整数位，小数点位所存储数据用于标记动态定点型的输入数据的小数点在整数位所存储数据中的位置，以区分整数位的数据中的整数部分和小数部分。其中，指数型的输入数据所对应的指定值与输入数据的进位制相同。

在一种可能的实现方式中，获取计算指令，并获取执行计算指令所需的输入数据，可以包括：解析计算指令得到多个运算指令。

其中，该方法还可以包括：

对输入数据执行前序处理，以及进行数据和运算指令的传输；

根据传输的数据和运算指令并行执行中间运算得到多个中间结果；

对多个中间结果执行后续处理，得到计算指令的计算结果。

在一种可能的实现方式中，该方法可以包括：存储输入数据。

在一种可能的实现方式中，获取计算指令，并获取执行计算指令所需的输入数据，可以包括：

存储计算指令；

对计算指令进行解析，得到计算指令的多个运算指令；

存储指令队列，指令队列包括按照执行顺序依次排列的多个待执行指令，多个待执行指令包括多个运算指令；

在一种可能的实现方式中，获取计算指令，并获取执行计算指令所需的多个输入数据，还可以包括：

在确定多个待执行指令中的第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系时，缓存第一待执行指令，在确定第零待执行指令执行完毕后，控制进行第一待执行指令的执行。

其中，第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系包括：存储第一待执行指令所需数据的第一存储地址区间与存储第零待执行指令所需数据的第零存储地址区间具有重叠的区域。

本公开实施例所提供的数据处理方法，通过对多个中间结果进行循环累加的方式降低了数据访存量和计算量，同时保证计算的精度无损，且能够有效提高数据处理速度。

需要说明的是，尽管以上述实施例作为示例介绍了数据处理方法如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤，只要符合本公开的技术方案即可。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的实施例中，应该理解到，所揭露的系统、装置，可通过其它的方式实现。例如，以上所描述的系统、装置实施例仅仅是示意性的，例如设备、装置、模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统或装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备、装置或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

集成的模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理装置，其特征在于，所述装置用于执行机器学习计算，所述装置包括控制模块和处理模块，所述处理模块包括数据传递子模块和累加子模块：

2.根据权利要求1所述的装置，其特征在于，所述累加子模块对所述多个中间结果进行循环累加运算，包括：

在接收到中间结果的第一运算周期，将所述中间结果与第一运算周期的第一中间数据相加，得到第一累加结果；

将所述第一累加结果存储为下一个运算周期的第一中间数据；

在未接收到中间结果的第二运算周期，将第二运算周期的第一中间数据确定为所述计算结果，

其中，初始运算周期的第一中间数据的值为零。

3.根据权利要求1所述的装置，其特征在于，所述累加子模块对所述多个中间结果进行循环累加运算，包括：

在接收到中间结果的第三运算周期，将所述中间结果与第三运算周期的第三中间数据相加，得到第二累加结果；

将第三运算周期的第二中间数据存储为下一个运算周期的第三中间数据，并将所述第二累加结果存储为下一个运算周期的第二中间数据；

在未接收到中间结果的第四运算周期，将第四运算周期的第二中间数据与第四运算周期的第三中间数据相加，得到所述计算结果，

4.根据权利要求1-3任一项所述的装置，其特征在于，所述机器学习计算包括：人工神经网络运算，所述输入数据包括：输入神经元数据和权值数据；所述计算结果为输出神经元数据。

5.根据权利要求4所述的装置，其特征在于，所述输入数据的数据类型包括指数型和动态定点型中的至少一项，所述输入神经元数据和所述权值数据的数据类型不同，

其中，所述数据传递子模块用于根据所述计算指令对所述输入数据进行处理，得到多个中间结果，包括：

所述数据传递子模块用于根据所述计算指令对权值数据或所述输入神经元数据进行移位运算，得到中间结果，

其中，所述指数型的输入数据包括指数位，以指定值为底数、指数位存储的数据为指数进行计算所得到的数据表示所述指数型的输入数据的数值，

所述动态定点型的输入数据包括小数点位和整数位，所述小数点位所存储数据用于标记所述动态定点型的输入数据的小数点在所述整数位所存储数据中的位置，以区分所述整数位的数据中的整数部分和小数部分，

其中，所述指数型的输入数据所对应的指定值与所述输入数据的进位制相同。

6.根据权利要求1所述的装置，其特征在于，所述处理模块包括主处理子模块和多个从处理子模块，所述主处理子模块包括所述数据传递子模块和所述累加子模块，

所述控制模块，还用于解析所述计算指令得到多个运算指令，并将所述输入数据以及所述多个运算指令发送至所述主处理子模块；

所述主处理子模块，用于对所述输入数据执行前序处理，以及与所述多个从处理子模块进行数据和运算指令的传输；

所述多个从处理子模块，用于根据从所述主处理子模块传输的数据和运算指令并行执行中间运算得到多个中间结果，并将所述多个中间结果传输给所述主处理子模块；

所述主处理子模块，还用于对所述多个中间结果执行后续处理，得到所述计算指令的计算结果。

7.根据权利要求1所述的装置，其特征在于，

所述装置还包括：存储模块，用于存储所述输入数据；

其中，所述控制模块，包括：

指令存储子模块，用于存储所述计算指令；

指令处理子模块，用于对所述计算指令进行解析，得到所述计算指令的多个运算指令；

队列存储子模块，用于存储指令队列，所述指令队列包括按照执行顺序依次排列的多个待执行指令，所述多个待执行指令包括所述多个运算指令；

其中，所述控制模块，还包括：

依赖关系处理子模块，用于在确定所述多个待执行指令中的第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系时，将所述第一待执行指令缓存在所述指令存储子模块中，在所述第零待执行指令执行完毕后，从所述指令存储子模块中提取所述第一待执行指令发送至所述处理模块，

其中，所述第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系包括：

存储所述第一待执行指令所需数据的第一存储地址区间与存储所述第零待执行指令所需数据的第零存储地址区间具有重叠的区域。

8.一种机器学习运算装置，其特征在于，所述装置包括：

一个或多个如权利要求1-7任一项所述的数据处理装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；

9.一种组合处理装置，其特征在于，所述组合处理装置包括：

如权利要求8所述的机器学习运算装置、通用互联接口和其他处理装置；

所述机器学习运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作，

其中，所述组合处理装置还包括：存储装置，该存储装置分别与所述机器学习运算装置和所述其他处理装置连接，用于保存所述机器学习运算装置和所述其他处理装置的数据。

10.一种机器学习芯片，其特征在于，所述机器学习芯片包括：

如权利要求8所述的机器学习运算装置或如权利要求9所述的组合处理装置。

11.一种电子设备，其特征在于，所述电子设备包括：

如权利要求10所述的机器学习芯片。

12.一种板卡，其特征在于，所述板卡包括：存储器件、接口装置和控制器件以及如权利要求10所述的机器学习芯片；

其中，所述机器学习芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述机器学习芯片与外部设备之间的数据传输；

所述控制器件，用于对所述机器学习芯片的状态进行监控。

13.一种数据处理方法，其特征在于，所述方法应用于数据处理装置，所述装置用于执行机器学习计算，所述方法包括：

获取计算指令，并获取执行所述计算指令所需的输入数据；

14.根据权利要求13所述的方法，其特征在于，对所述多个中间结果进行循环累加运算，包括：

其中，初始运算周期的第一中间数据的值为零。

15.根据权利要求13所述的方法，其特征在于，对所述多个中间结果进行循环累加运算，包括：

16.根据权利要求13-15所述的方法，其特征在于，所述机器学习计算包括：人工神经网络运算，所述输入数据包括：输入神经元数据和权值数据；所述计算结果为输出神经元数据。

17.根据权利要求16所述的方法，其特征在于，所述输入数据的数据类型包括指数型和动态定点型中的至少一项，所述输入神经元数据和所述权值数据的数据类型不同，

其中，根据所述计算指令对所述输入数据进行处理，得到多个中间结果，包括：

根据所述计算指令对权值数据或所述输入神经元数据进行移位运算，得到中间结果，

18.根据权利要求13所述的方法，其特征在于，获取计算指令，并获取执行所述计算指令所需的输入数据，包括：

解析所述计算指令得到多个运算指令，

其中，所述方法还包括：

对所述输入数据执行前序处理，以及进行数据和运算指令的传输；

对所述多个中间结果执行后续处理，得到所述计算指令的计算结果。

19.根据权利要求13所述的方法，其特征在于，

所述方法包括：存储所述输入数据；

其中，获取计算指令，并获取执行所述计算指令所需的输入数据，包括：

存储所述计算指令；

对所述计算指令进行解析，得到所述计算指令的多个运算指令；

存储指令队列，所述指令队列包括按照执行顺序依次排列的多个待执行指令，所述多个待执行指令包括所述多个运算指令；

其中，获取计算指令，并获取执行所述计算指令所需的多个输入数据，还包括：

在确定所述多个待执行指令中的第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系时，缓存所述第一待执行指令，在确定所述第零待执行指令执行完毕后，控制进行所述第一待执行指令的执行，