CN114282679A

CN114282679A - 数据处理方法、装置和存储介质

Info

Publication number: CN114282679A
Application number: CN202011032600.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2022-04-05

Abstract

本公开涉及一种数据处理方法、装置和存储介质。其所公开的板卡包括：存储器件、接口装置和控制器件以及设置有数据处理装置的芯片；其中，数据处理装置与存储器件、控制器件以及接口装置分别连接；存储器件，用于存储数据；接口装置，用于实现数据处理装置与外部设备之间的数据传输；控制器件，用于对数据处理装置的状态进行监控。本公开实施例所提供的数据处理方法、装置和存储介质，减少了数据读取的数据量，缩短了数据读取的时间，提高了数据读取的效率和速度，降低了功耗，使得后续单元执行运算、存储等处理的效率得到显著提高，提升了装置进行数据处理的性能。

Description

数据处理方法、装置和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法、装置和存储介质。

背景技术

相关技术中，装置利用运算器实现运算处理的流程为：从存储器加载数据、运算器完成计算、输出结果到存储器。然而，算法通常具有数据量大、计算量大的特性。而且由于存储器墙的存在，数据加载和存储往往耗费大量时间，导致运算器效率无法达到得有有效提高。而在神经网络算法中，为满足不同算子的运算需求，需要在执行具体的运算之前对数据进行填充，这更加大了访存功耗。

发明内容

有鉴于此，本公开提出了一种数据处理方法、装置和存储介质。

根据本公开的一方面，提供了一种数据处理装置，所述装置包括：读描述符解析单元和数据读取单元，

所述读描述符解析单元，用于对接收到的针对第一数据的第一描述信息进行解析，对解析得到的针对所述第一数据的第一读填充描述符进行优化修改得到第二读填充描述符，并将根据所述第二读填充描述符生成读填充数据发送至后续单元，以及将所述第二读填充描述符发送至所述数据读取单元；

所述数据读取单元，用于接收针对所述第一数据的读请求和第二读填充描述符，根据所述第二读填充描述符对所述读请求进行修改得到修改后读请求，根据所述修改后读请求读取所述第一数据部分作为第二数据，并将所述第二数据发送至所述后续单元，

所述第二数据为所述第一数据中除所述读填充数据以外的数据。

根据本公开的另一方面，提供了一种数据处理方法，应用于数据处理装置，所述数据处理装置包括读描述符解析单元、数据读取单元，所述方法包括：

控制所述读描述符解析单元对接收到的针对第一数据的第一描述信息进行解析，对解析得到的针对所述第一数据的第一读填充描述符进行优化修改得到第二读填充描述符，并将根据所述第二读填充描述符生成读填充数据发送至后续单元，以及将所述第二读填充描述符发送至所述数据读取单元；

控制所述数据读取单元接收针对所述第一数据的读请求和第二读填充描述符，根据所述第二读填充描述符对所述读请求进行修改得到修改后读请求，根据所述修改后读请求读取所述第一数据部分作为第二数据，并将所述第二数据发送至所述后续单元，

根据本公开的另一方面，提供了一种机器学习运算装置，所述装置包括：

一个或多个上述数据处理装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；

当所述机器学习运算装置包含多个所述数据处理装置时，所述多个所述数据处理装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述数据处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算；多个所述数据处理装置共享同一控制系统或拥有各自的控制系统；多个所述数据处理装置共享内存或者拥有各自的内存；多个所述数据处理装置的互联方式是任意互联拓扑。

根据本公开的另一方面，提供了一种组合处理装置，所述组合处理装置包括：

如上述机器学习运算装置、通用互联接口和其他处理装置；

所述机器学习运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作，

其中，所述组合处理装置还包括：存储装置，该存储装置分别与所述机器学习运算装置和所述其他处理装置连接，用于保存所述机器学习运算装置和所述其他处理装置的数据。

根据本公开的另一方面，提供了一种芯片，所述芯片包括上述组合处理装置。

根据本公开的另一方面，提供了一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及如上述芯片；

其中，所述数据处理装置与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述数据处理装置与外部设备之间的数据传输；

所述控制器件，用于对所述数据处理装置的状态进行监控，

其中，所述存储器件包括：多组存储单元，每一组所述存储单元与所述数据处理装置通过总线连接，所述存储单元为：DDR SDRAM；

所述数据处理装置包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置为：标准PCIE接口。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现上述数据处理方法。

本公开实施例所提供的数据处理方法、装置和存储介质，该装置包括：读描述符解析单元，用于对接收到的针对第一数据的第一描述信息进行解析，对解析得到的针对第一数据的第一读填充描述符进行优化修改得到第二读填充描述符，并将根据第二读填充描述符生成读填充数据发送至后续单元，以及将第二读填充描述符发送至数据读取单元；数据读取单元，用于接收针对第一数据的读请求和第二读填充描述符，根据第二读填充描述符对读请求进行修改得到修改后读请求，根据修改后读请求读取第一数据部分作为第二数据，并将第二数据发送至后续单元，第二数据为第一数据中除读填充数据以外的数据。在读取第一数据的过程中，可以仅读取第一数据中的第二数据发送至后续单元，减少了数据读取的数据量，缩短了数据读取的时间，提高了数据读取的效率和速度，降低了功耗，使得后续单元执行运算、存储等处理的效率得到显著提高，提升了装置进行数据处理的性能。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的数据处理装置的框图。

图2示出根据本公开一实施例的数据处理装置的框图。

图3示出根据本公开一实施例的数据处理装置的框图。

图4示出根据本公开一实施例的数据处理装置的框图。

图5示出根据本公开一实施例的数据处理方法的流程图。

图6是示出根据本公开实施例的一种组合处理装置1200的结构图。

图7是示出根据本公开实施例的一种板卡1300的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的数据处理装置的框图。如图1所示，该装置包括：读描述符解析单元41和数据读取单元42。

读描述符解析单元41，用于对接收到的针对第一数据的第一描述信息进行解析，对解析得到的针对所述第一数据的第一读填充描述符进行优化修改得到第二读填充描述符，并将第二读填充描述符发送至数据读取单元42，以及将根据所述第第二读填充描述符生成的读填充数据发送至后续单元43。数据处理装置可以包括后续单元43，或者该后续单元43也可以是其他装置(也可以是其他装置的组成单元)。

所述数据读取单元42，用于接收针对所述第一数据的读请求和所述第二读填充描述符，根据所述第二读填充描述符对所述读请求进行修改得到修改后读请求，根据所述修改后读请求读取所述第一数据的部分作为第二数据，并将所述第二数据发送至所述后续单元43，所述第二数据为所述第一数据中除所述读填充数据以外的数据。

其中，第二数据为第一数据中不具备规律、只能从存储器中读取得到的数据。读填充数据为第一数据中任意一个或多个具有规律、无需从存储器中读取也能确定的数据。例如，假定第一数据为[1,0,4,1,0,0,0,0]，其后四位均为零，但前四位却没有确定的规律，则可以对后四位通过填充的方式实现。则利用上述装置在读取该第一数据的过程中，可以利用第二描述信息描述“第一数据后四位无需读取”装置的数据读取单元最终仅从“第一数据[1,0,4,1,0,0,0,0]”读出“第二数据[1,0,4,1]”，并利用读描述符解析单元生成“读填充数据[0,0,0,0]”，后续单元可以根据“第二数据[1,0,4,1]”和“读填充数据[0,0,0,0]”生成完整的第一数据[1,0,4,1,0,0,0,0]。这样，即完成了第一数据的读取，又能缩减数据读取的数据量、缩短第一数据的读取时间、提高第一数据读取的效率和速度、降低功耗，进而提高后续单元的处理效率。

在本实施例中，读填充描述符解析单元解析得到第一读填充描述符之后，先判断第一读填充描述符是否具备优化的可能，若无法优化则执行“第一读填充描述符→读填充数据→将第一读填充描述符作为第二读填充描述符发出、发出读填充数据”的处理过程。若可以优化，则执行“第一读填充描述符→第二读填充描述符→读填充数据→发送第二读填充描述符和读填充数据”的处理过程。其中，是否具有优化的可能可以是指填充位置、填充的数、填充的数据量是否存在修改的可能。

在本实施例中，第二读填充描述符与第一读填充描述符的区别可以基于二者所生成的读填充数据的不同、和/或基于二者所读取的第二数据的不同来描述，以读填充数据的不同来举例说明，第二读填充描述符与第一读填充描述符的区别对读填充数据的影响包括以下至少一项：读填充数据的数据量变大、读填充数据的填充位置增多(扩大)、填充的数变化等。这样，可以保证确定出的第二数据更为准确，也可以进一步缩减第二数据的数据量，进一步提高存储效率、速度、降低功耗。

在本实施例中，第一数据可以是参与神经网络运算的数据，可以是输入神经元、输出神经元、输入权值、偏置、常量神经元等数据。第一描述信息可以是用户输入、或者根据用户输入的其他信息确定出的。第一描述信息中记录有第一数据中的读填充数据在第一数据中的位置、大小、填充数值、数据量、数据格式等描述读填充数据特性的信息。读描述符解析单元可以对第一描述信息进行解析，进而结合第一数据的信息(如数据量、数据维度顺序等用于表征第一数据特性的信息)生成可供装置直接识别的第一读填充描述符。

在一种可能的实现方式中，所述第二读填充描述符包括以下至少一项：所述读填充数据在所述第一数据中的填充位置、所述读填充数据的数据量和所述读填充数据的数据格式，数据格式可以包括数据维度顺序、维度、数据类型、填充的数。

其中，填充位置可以指示读填充数据在所述第一数据中的具体位置，可以通过读填充数据在第一数据中的起始位置和结束位置来描述填充位置，也可以利用读填充数据相对于第一数据的偏移量来描述填充位置等方式来表示。读填充数据的数据量可以指示读填充数据的数据尺寸、大小，如2bytes。数据格式可以表征读填充数据的格式。维度可以表示读填充数据所包含的维度，如通道维度、高度维度、宽度维度、数量维度、深度维度以及时间维度等。数据维度顺序可以指示读填充数据读取和/或写入的维度顺序，也即上述维度的读取和/或写入顺序，如，读填充数据包括宽度维度和高度维度，对其进行读取和/或写入的数据维度顺序可以为宽度维度先于高度维度。数据类型可以表示读填充数据的类型和位数，如，某读填充数据的数据类型为16位浮点数。填充的数可以是0、1等特定数值。

在本实施例中，读请求可以为常规的用于进行数据读取的请求，根据读请求可以从指定存储位置中读取数据。如，可以直接根据针对第一数据的读请求，从第一数据的存储位置中读出第一数据。数据读取单元还用于根据接收到的针对待读取数据的读请求，直接从对应的存储位置中读取出待读取数据。

在本实施例中，修改后读请求中包括第二数据在第一数据中的位置、所述第二数据的数据量和所述第二数据的数据格式等读取第二数据所需的信息，其中，数据格式可以包括数据维度顺序、维度、数据类型。

在一种可能的实现方式中，数据读取单元可以包括：请求接收子单元、读取子单元和第一数据传输子单元。

请求接收子单元，用于接收针对第一数据的读请求和第二读填充描述符。并根据第二读填充描述符对读请求进行修改，得到修改后读请求，并将修改后读请求发送至读取子单元中。请求接收子单元可以通过设置的读请求接口接收读请求、通过设置的读描述符接口接收第二读填充描述符。

读取子单元，用于根据所述修改后读请求从存储器中读取第一数据的部分作为第二数据，并将第二数据发送至第一数据传输子单元。

第一数据传输子单元，用于将接收到的第二数据发送至后续单元。数据传输子单元可以通过设置的接口将第二数据发送至后续单元。

本公开实施例所提供的数据处理装置，在获取第一数据的过程中，可以仅读取第一数据中的第二数据发送至后续单元，减少了数据读取的数据量，缩短了数据读取的时间，提高了数据读取的效率和速度，降低了功耗，使得后续单元执行运算、存储等处理的效率得到显著提高，提升了装置进行数据处理的性能。

图2示出根据本公开一实施例的数据处理装置的框图。在一种可能的实现方式中，如图2所示，所述后续单元43可以包括运算单元431，

所述运算单元431，用于根据接收到的所述第二数据和所述读填充数据生成所述第一数据，并所述第一数据进行运算处理，得到对应于所述第一数据的运算结果。

在该实现方式中，运算单元中可以包括用于实现针对第一数据的运算处理所需的运算器，该运算处理可以包括算术运算和/或逻辑运算，如，运算器可以包括加法器、乘法器、比较器、选择器等。对第一数据所进行的运算处理可以是神经网络运算中所涉及到的运算。

在该实现方式中，运算单元接收第二数据和读填充数据相比于直接接收第一数据，其数据输入效率得到了显著提升。而且基于读填充数据和第二数据可以生成第一数据，不会影响第一数据正常的后续运算处理过程。

在一种可能的实现方式中，如图2所示，所述后续单元43可以包括运算单元431，所述读描述符解析单元可以包括读控制器。所述读控制器，用于根据所述第二读填充描述符生成读控制信息，并将所述读控制信息发送至所述运算单元。

其中，所述运算单元431在所述读控制信息的控制下对所述第二数据和/或所述读填充数据进行运算。运算单元431可以在读控制信息的控制下利用选择器进行第二数据和读填充数据的选择、而后执行相应的运算，进而得到对应于读填充数据的中间结果、对应于第二数据的中间结果，最终根据对应于读填充数据的中间结果、对应于第二数据的中间结果见运算得到对应于第一数据的运算结果。或者运算单元431可以在读控制信息的控制下利用选择器进行第二数据和读填充数据的选择、而后执行相应的运算，直接得到对应于第一数据的运算结果。

或者，所述运算单元431在所述读控制信息的控制下根据所述第二数据和所述读填充数据生成所述第一数据后进行运算。运算单元431可以在读控制信息的控制下利用选择器对读填充数据和第二数据进行选择处理，得到第一数据，进而对处理后得到的第一数据进行运算，得到运算结果。

举例来说，假定第一数据为

利用本公开装置根据修改后读请求所读取到的就是第二数据

并生成读填充数据[1 1 1]。运算单元可以在读控制信息的控制下根据

和[1 1 1]生成

之后，再进行运算得到运算结果。

在一种可能的实现方式中，所述读描述符解析单元还可以包括读填充数据生成子单元。其中，所述读控制器，还用于对第一描述信息进行解析，得到第一读填充描述符，并对所述第一读填充描述符进行优化修改得到第二读填充描述符，以及将读控制信息发送至所述读填充数据生成子单元。读填充数据生成子单元，用于接收读控制信息，并根据读控制信息生成读填充数据。

在一种可能的实现方式中，读控制器可以根据读描述符解析单元中设置的描述信息接收接口接收第一描述信息，并通过读描述符解析单元中设置的描述符发送接口将第二填充描述符发送至数据读取单元。读描述符解析单元还可以包括第二数据传输子单元，第二数据传输子单元用于将读填充数据和读控制信息发送至运算单元。

在一种可能的实现方式中，所述后续单元43可以包括后续读描述符解析单元和后续数据读取单元。其中，所述读描述符解析单元还用于将所述第二读填充描述符发送至所述后续读描述符解析单元；所述后续读描述符解析单元用于将所述第二读填充描述符发送至后续数据读取单元。

其中，后续读描述符解析单元还根据第二读填充描述符生成读填充数据，并发送至其他后续单元(如运算单元，不包括后续数据读取单元)。后续数据读取单元接收针对所述第一数据的读请求和所述第二读填充描述符，根据所述第二读填充描述符对所述读请求进行修改得到修改后读请求，根据所述修改后读请求读取所述第一数据的部分作为第二数据，并将所述第二数据发送至所述其他后续单元(如运算单元，不包括后续数据读取单元)，所述第二数据为所述第一数据中除所述读填充数据以外的数据。

其中，数据读取单元也可以将读请求直接转发至后续数据读取单元。

在该实现方式中，后续单元可以包括多个后续读描述符解析单元、多个后续数据读取单元。通过上述方式，仅对读描述符解析单元输入第二描述信息、对数据读取单元输入读请求，就可以使得数据读取单元以及后续数据读取单元能够分别读取到第二数据，读描述符解析单元和后续读描述符解析单元也可以生成读填充数据，每一个数据读取单元和对应的读描述符解析单元(或者后续数据读取单元和对应的后续读描述符解析单元)可以分别将第二数据和读填充数据发送至不同的运算单元，实现不同的运算过程，得到运算结果。

图3示出根据本公开一实施例的数据处理装置的框图。在一种可能的实现方式中，如图3所示，所述后续单元43还可以包括写描述符解析单元432和第一数据写入单元433。

所述运算单元431，还用于将所述运算结果发送至所述第一数据写入单元433。

所述写描述符解析单元432，用于对接收到的针对所述运算结果的第二描述信息进行解析得到第一写填充描述符，根据所述第一写填充描述符生成写填充数据，并将所述第一写填充描述符和所述写填充数据发送至所述第一数据写入单元433。

所述第一数据写入单元433，用于接收针对所述运算结果的第一写请求、所述第一写填充描述符和所述写填充数据，根据所述第一写填充描述符对所述第一写请求进行修改得到修改后第一写请求，根据所述修改后第一写请求存储所述运算结果中的待写入数据和所述写填充数据。所述待写入数据为所述运算结果中除所述写填充数据以外的数据。

在该实现方式中，由于预先可知第一数据的状态(第一数据中读填充数据的位置等信息)，运算单元得到的对应于第一数据的运算结果中所采用的运算方式、算子等也是预先获知的，因此，可以基于此确定出运算结果中的写填充数据。这样，对于运算结果而言，第一数据写入单元仅存储其中的待写入数据(运算结果的部分数据)，能够提高运算结果的存储效率、速度、降低存储运算结果的功耗。而写填充数据的设置，保证所存储的待写入数据和写填充数据能够最终生成运算结果。保证数据的完整性。

举例来说，假定运算结果为

根据修改后第一写请求写入的就是运算结果中的待写入部分

并写入根据第一写填充描述符生成的写填充数据[0 0 0]。

在另一种可能的实现方式中，所述写描述符解析单元432，用于对接收到的针对所述运算结果的第二描述信息进行解析得到第一写填充描述符，并将所述第一写填充描述符发送至所述第一数据写入单元433。所述第一数据写入单元433，用于接收针对所述运算结果的第一写请求、所述第一写填充描述符和所述写填充数据，根据所述第一写填充描述符对所述第一写请求进行修改得到修改后第一写请求，根据所述修改后第一写请求存储所述运算结果中的待写入数据和所述第一写填充描述符，也即将待写入数据和所述第一写填充描述符作为“运算结果”存储。在之后读取该“运算结果”的过程中，可以读取到待写入数据和所述第一写填充描述符，进而根据第一写填充描述符生成写填充数据，以根据所述待写入数据和写填充数据生成包含全部数据的运算结果。则，所述待写入数据为所述运算结果中除写填充数据以外的数据。通过这样的方式，可以进一步简化针对运算结果的数据存储过程，进一步提高存储效率、速度、降低存储运算结果的功耗。

在一种可能的实现方式中，所述第一写填充描述符可以包括以下至少一项：所述写填充数据在所述运算结果中的填充位置、所述写填充数据的数据量和所述写填充数据的数据格式。所述数据格式还包括以下至少一项：数据维度顺序、维度、数据类型、填充的数。其中，第一写填充描述符中所包含信息的定义与第二读填充描述符相同，可以参见上文第二读填充描述符的相关描述，此处不再赘述。

在一种可能的实现方式中，所述第一数据写入单元，还用于接收针对所述运算结果的第三写请求，根据所述第三写请求存储所述运算结果。也即，第一数据写入单元可以直接存储该运算结果。

在一种可能的实现方式中，所述写描述符解析单元，还用于在确定所述第一写填充描述符满足优化条件时，对所述第一写填充描述符进行优化得到优化后写填充描述符，根据所述优化后写填充描述符生成所述写填充数据，并将所述优化后写填充描述符作为第一写填充描述符发送至所述第一数据写入单元。

在该实现方式中，写描述符解析单元在解析得到第一写填充描述符之后，先判断其是否具备优化的可能，若无法优化则执行“第一写填充描述符→写填充数据→发送第一写填充描述符和写填充数据”的处理过程。若可以优化，则执行“第一写填充描述符→优化后写填充描述符→写填充数据→发送第一写填充描述符(也即优化后写填充描述符)和写填充数据”的处理过程。其中，是否具有优化的可能可以是指填充位置、填充的数、填充的数据量是否存在修改的可能。这样，可以保证确定出的待写入数据更为准确，也可以进一步缩减待写入数据的数据量，进一步提高存储效率、速度、降低存储运算结果的功耗。第一写填充描述符与优化后写填充描述符之间的区别参见上文第一读填充描述符和第二读填充描述符的区别，此处不再赘述。

图4示出根据本公开一实施例的数据处理装置的框图。在一种可能的实现方式中，如图4所示，所述后续单元43包括第二数据写入单元434。

所述读描述符解析单元，还用于将所述第一读填充描述符作为第二写填充描述符发送至所述第二数据写入单元434。

所述第二数据写入单元434，还用于接收所述第二数据、所述读填充数据、针对所述第二数据的第二写请求和所述第二写填充描述符，根据所述第二写填充描述符对所述第二写请求进行修改得到修改后第二写请求，并根据所述修改后第二写请求存储所述第二数据和所述读填充数据，或者，根据所述修改后第二写请求存储根据所述第二数据和所述读填充数据生成的所述第一数据。

通过上述方式，实际上实现了针对第一数据的转存过程，而由于读取过程中仅读取第一数据的部分(也即读取第二数据)，存储中针对第一数据的存储也执行了存储第一数据的部分(也即第二数据)的存储过程，极大地降低了数据转存过程中访存量，提高转存的效率、速度，降低了转存的功耗。

或者，所述第二数据写入单元434也可以仅存储所述第二数据和所述第二写填充描述符，将其作为“第一数据”存储，在之后读取该“第一数据”的过程中，可以读取到第二数据和第二写填充描述符，进而根据第二写填充描述符生成读填充数据，最终根据所述第二数据和读填充数据生成包含全部数据的第一数据。通过这样的方式，可以进一步简化针对第一数据的转存过程，进一步提高转存效率、速度，降低转存功耗。

在一种可能的实现方式中，所述装置包括数据处理模块，所述数据处理模块包括所述数据读取单元、所述读描述符解析单元和所述后续单元中的至少一个。可以根据需要将所述数据读取单元、所述读描述符解析单元和所述后续单元中一个或多个集成在同一数据处理模块中，简化装置的结构。

在一种可能的实现方式中，第二读填充描述符、第一写填充描述符、第二写填充描述符可以通过设置相同的填充描述符格式，通过写、读标识来区分填充描述符为读填充描述符还是写填充描述符。例如，填充描述符格式可以为：

其中，pattern表示数据格式，order表示数据维度顺序，dims表示维度，Data type表示数据类型，data表示填充的数，reserved表示保留域或冗余域，Addr表示填充位置，Size表示数据量，Attribute表示填充描述符是用于读请求的第二读填充描述符还是用于写请求的第一写填充描述符、第二写填充描述符，可以为Attribute设置不同的代码，如01表示第二读填充描述符、00表示第一写填充描述符或第二写填充描述符。

图5示出根据本公开一实施例的数据处理方法的流程图。如图5所示，该方法应用于上述数据处理装置，该方法包括步骤S11和步骤S12。

步骤S11，控制所述读描述符解析单元对接收到的针对第一数据的第一描述信息进行解析，对解析得到的针对所述第一数据的第一读填充描述符进行优化修改得到第二读填充描述符，并将根据所述第二读填充描述符生成读填充数据发送至后续单元，以及将所述第二读填充描述符发送至所述数据读取单元。

步骤S12，控制所述数据读取单元接收针对所述第一数据的读请求和第二读填充描述符，根据所述第二读填充描述符对所述读请求进行修改得到修改后读请求，根据所述修改后读请求读取所述第一数据部分作为第二数据，并将所述第二数据发送至所述后续单元，

在一种可能的实现方式中，所述后续单元可以包括运算单元。所述方法还可以包括：

控制所述运算单元根据接收到的所述第二数据和所述读填充数据生成所述第一数据，并所述第一数据进行运算处理，得到对应于所述第一数据的运算结果。

在一种可能的实现方式中，所述后续单元可以包括运算单元，所述读描述符解析单元可以包括读控制器，所述方法还包括：控制所述读控制器根据所述第二读填充描述符生成读控制信息，并将所述读控制信息发送至所述运算单元。

其中，所述方法还包括：控制所述运算单元在所述读控制信息的控制下对所述第二数据和/或所述读填充数据进行运算；或

控制所述运算单元在所述读控制信息的控制下根据所述第二数据和所述读填充数据生成所述第一数据后进行运算。

在一种可能的实现方式中，所述后续单元可以包括后续读描述符解析单元和后续数据读取单元。所述方法还包括：

控制所述读描述符解析单元将所述第一读填充描述符发送至所述后续读描述符解析单元；

控制所述后续读描述符解析单元将所述第一读填充描述符发送至后续数据读取单元。

在一种可能的实现方式中，所述后续单元还可以包括写描述符解析单元和第一数据写入单元。所述方法还包括：

控制所述运算单元将所述运算结果发送至所述第一数据写入单元；

控制所述写描述符解析单元对接收到的针对所述运算结果的第二描述信息进行解析得到第一写填充描述符，根据所述第一写填充描述符生成写填充数据，并将所述写填充数据和所述第一写填充描述符发送至所述第一数据写入单元；

控制所述第一数据写入单元接收针对所述运算结果的第一写请求、所述写填充数据和所述第一写填充描述符，根据所述第一写填充描述符对所述第一写请求进行修改得到修改后第一写请求，根据所述修改后第一写请求存储所述运算结果中的待写入数据和所述写填充数据，

所述待写入数据为所述运算结果中除所述写填充数据以外的数据。

在一种可能的实现方式中，所述后续单元可以包括第二数据写入单元。所述方法还包括：

控制所述读描述符解析单元将所述第一读填充描述符作为第二写填充描述符发送至所述第二数据写入单元；

控制所述第二数据写入单元接收所述第二数据、所述读填充数据、针对所述第二数据的第二写请求和所述第二写填充描述符，根据所述第二写填充描述符对所述第二写请求进行修改得到修改后第二写请求，并根据所述修改后第二写请求存储所述第二数据和所述读填充数据，或者，根据所述修改后第二写请求存储根据所述第二数据和所述读填充数据生成的所述第一数据。

在一种可能的实现方式中，所述后续单元还包括第一数据写入单元，所述方法还包括：

控制所述第一数据写入单元接收针对所述运算结果的第三写请求，根据所述第三写请求存储所述运算结果。

在一种可能的实现方式中，所述方法还包括：控制所述写描述符解析单元在确定所述第一写填充描述符满足优化条件时，对所述第一写填充描述符进行优化得到优化后写填充描述符，根据所述优化后写填充描述符生成所述写填充数据，并将所述优化后写填充描述符作为第一写填充描述符发送至所述第一数据写入单元。

在一种可能的实现方式中，所述第二读填充描述符包括以下至少一项：所述读填充数据在所述第一数据中的填充位置、所述读填充数据的数据量、所述读填充数据的数据格式，

所述第一写填充描述符包括以下至少一项：所述写填充数据在所述运算结果中的填充位置、所述写填充数据的数据量、所述写填充数据的数据格式，

所述数据格式还包括以下至少一项：数据维度顺序、维度、数据类型、填充的数。

本公开实施例所提供的数据处理方法，在读取第一数据的过程中，可以仅读取第一数据中的第二数据发送至后续单元，减少了数据读取的数据量，缩短了数据读取的时间，提高了数据读取的效率和速度，降低了功耗，使得后续单元执行运算、存储等处理的效率得到显著提高，提升了装置进行数据处理的性能。

需要说明的是，尽管以上述实施例作为示例介绍了数据处理方法、装置如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤、单元，只要符合本公开技术方案即可。

本公开提供一种机器学习运算装置，该机器学习运算装置可以包括一个或多个上述数据处理装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的机器学习运算。该机器学习运算装置可以从其他机器学习运算装置或非机器学习运算装置中获得神经网络计算宏指令或待执行神经网络计算指令，并将执行结果通过I/O接口传递给外围设备(也可称其他处理装置)。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上数据处理装置时，数据处理装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的神经网络的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该机器学习运算装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

图6是示出根据本公开实施例的一种组合处理装置1200的结构图。如图6中所示，该组合处理装置1200包括计算处理装置1202、接口装置1204、其他处理装置1206和存储装置1208。根据不同的应用场景，计算处理装置中可以包括一个或多个计算装置1210。计算处理装置1202可以为上述机器学习运算装置，或者上述数据处理装置。

在不同的实施例中，本公开的计算处理装置可以配置成执行用户指定的操作。在示例性的应用中，该计算处理装置可以实现为多核人工智能处理器。类似地，包括在计算处理装置内的一个或多个计算装置可以实现为人工智能处理器核(也即上文所述计算核)或者人工智能处理器核的部分硬件结构。

在示例性的操作中，本公开的计算处理装置可以通过接口装置与其他处理装置进行交互，以共同完成用户指定的操作。根据实现方式的不同，本公开的其他处理装置可以包括中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics ProcessingUnit,GPU)、人工智能处理器等通用和/或专用处理器中的一种或多种类型的处理器。这些处理器可以包括但不限于数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以根据实际需要来确定。如前所述，仅就本公开的计算处理装置而言，其可以视为具有单核结构或者同构多核结构。然而，当将计算处理装置和其他处理装置共同考虑时，二者可以视为形成异构多核结构。

在一个或多个实施例中，该其他处理装置可以作为本公开的计算处理装置(其可以具体化为人工智能例如神经网络运算的相关运算装置)与外部数据和控制的接口，执行包括但不限于数据搬运、对计算装置的开启和/或停止等基本控制。在另外的实施例中，其他处理装置也可以和该计算处理装置协作以共同完成运算任务。

在一个或多个实施例中，该接口装置可以用于在计算处理装置与其他处理装置间传输数据和控制指令。例如，该计算处理装置可以经由所述接口装置从其他处理装置中获取输入数据，写入该计算处理装置片上的存储装置(或称存储器)。进一步，该计算处理装置可以经由所述接口装置从其他处理装置中获取控制指令，写入计算处理装置片上的控制缓存中。替代地或可选地，接口装置也可以读取计算处理装置的存储装置中的数据并传输给其他处理装置。

附加地或可选地，本公开的组合处理装置还可以包括存储装置。如图中所示，该存储装置分别与所述计算处理装置和所述其他处理装置连接。在一个或多个实施例中，存储装置可以用于保存所述计算处理装置和/或所述其他处理装置的数据。例如，该数据可以是在计算处理装置或其他处理装置的内部或片上存储装置中无法全部保存的数据。

在一些实施例里，本公开还公开了一种芯片(例如图7中示出的芯片1302)。在一种实现中，该芯片是一种系统级芯片(System on Chip，SoC)，并且集成有一个或多个如图6中所示的组合处理装置。该芯片可以通过对外接口装置(如图7中示出的对外接口装置1306)与其他相关部件相连接。该相关部件可以例如是摄像头、显示器、鼠标、键盘、网卡或wifi接口。在一些应用场景中，该芯片上可以集成有其他处理单元(例如视频编解码器)和/或接口模块(例如DRAM接口)等。在一些实施例中，本公开还公开了一种芯片封装结构，其包括了上述芯片。在一些实施例里，本公开还公开了一种板卡，其包括上述的芯片封装结构。下面将结合图7对该板卡进行详细地描述。

图7是示出根据本公开实施例的一种板卡1300的结构示意图。如图7中所示，该板卡包括用于存储数据的存储器件1304，其包括一个或多个存储单元1310。该存储器件可以通过例如总线等方式与控制器件1308和上文所述的芯片1302进行连接和数据传输。进一步，该板卡还包括对外接口装置1306，其配置用于芯片(或芯片封装结构中的芯片)与外部设备1312(例如服务器或计算机等)之间的数据中继或转接功能。例如，待处理的数据可以由外部设备通过对外接口装置传递至芯片。又例如，所述芯片的计算结果可以经由所述对外接口装置传送回外部设备。根据不同的应用场景，所述对外接口装置可以具有不同的接口形式，例如其可以采用标准PCIE接口等。

在一个或多个实施例中，本公开板卡中的控制器件可以配置用于对所述芯片的状态进行调控。为此，在一个应用场景中，该控制器件可以包括单片机(Micro ControllerUnit，MCU)，以用于对所述芯片的工作状态进行调控。

根据上述结合图6和图7的描述，本领域技术人员可以理解本公开也公开了一种电子设备或装置，其可以包括一个或多个上述板卡、一个或多个上述芯片和/或一个或多个上述组合处理装置。

根据不同的应用场景，本公开的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本公开的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本公开的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本公开方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。

需要说明的是，为了简明的目的，本公开将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本公开的方案并不受所描述的动作的顺序限制。因此，依据本公开的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本公开所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本公开某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本公开对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本公开某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。

在具体实现方面，基于本公开的公开和教导，本领域技术人员可以理解本公开所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行划分，而实际实现时也可以有另外的划分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。

在本公开中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本公开实施例所述方案的目的。另外，在一些场景中，本公开实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。

在一些实现场景中，上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时，所述集成的单元可以存储在计算机可读取存储器中。基于此，当本公开的方案以软件产品(例如计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本公开实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如CPU、GPU、FPGA、DSP和ASIC等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(Resistive Random Access Memory，RRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、增强动态随机存取存储器(Enhanced Dynamic Random Access Memory，EDRAM)、高带宽存储器(High Bandwidth Memory，HBM)、混合存储器立方体(Hybrid Memory Cube，HMC)、ROM和RAM等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理装置，其特征在于，所述装置包括：读描述符解析单元和数据读取单元，

2.根据权利要求1所述的装置，其特征在于，所述后续单元包括运算单元，

所述运算单元，用于根据接收到的所述第二数据和所述读填充数据生成所述第一数据，并所述第一数据进行运算处理，得到对应于所述第一数据的运算结果。

3.根据权利要求1或2所述的装置，其特征在于，所述后续单元包括运算单元，所述读描述符解析单元包括读控制器，

所述读控制器，用于根据所述第二读填充描述符生成读控制信息，并将所述读控制信息发送至所述运算单元；

其中，所述运算单元在所述读控制信息的控制下对所述第二数据和/或所述读填充数据进行运算；或

所述运算单元在所述读控制信息的控制下根据所述第二数据和所述读填充数据生成所述第一数据后进行运算。

4.根据权利要求1所述的装置，其特征在于，所述后续单元包括后续读描述符解析单元和后续数据读取单元，

其中，所述读描述符解析单元还用于将所述第一读填充描述符发送至所述后续读描述符解析单元；

所述后续读描述符解析单元用于将所述第一读填充描述符发送至后续数据读取单元。

5.根据权利要求2所述的装置，其特征在于，所述后续单元还包括写描述符解析单元和第一数据写入单元，

所述运算单元，还用于将所述运算结果发送至所述第一数据写入单元；

所述写描述符解析单元，用于对接收到的针对所述运算结果的第二描述信息进行解析得到第一写填充描述符，根据所述第一写填充描述符生成写填充数据，并将所述写填充数据和所述第一写填充描述符发送至所述第一数据写入单元；

所述第一数据写入单元，用于接收针对所述运算结果的第一写请求、所述写填充数据和所述第一写填充描述符，根据所述第一写填充描述符对所述第一写请求进行修改得到修改后第一写请求，根据所述修改后第一写请求存储所述运算结果中的待写入数据和所述写填充数据，

6.根据权利要求1所述的装置，其特征在于，所述后续单元包括第二数据写入单元，

所述读描述符解析单元，还用于将所述第一读填充描述符作为第二写填充描述符发送至所述第二数据写入单元；

所述第二数据写入单元，还用于接收所述第二数据、所述读填充数据、针对所述第二数据的第二写请求和所述第二写填充描述符，根据所述第二写填充描述符对所述第二写请求进行修改得到修改后第二写请求，并根据所述修改后第二写请求存储所述第二数据和所述读填充数据，或者，根据所述修改后第二写请求存储根据所述第二数据和所述读填充数据生成的所述第一数据。

7.根据权利要求2所述的装置，其特征在于，所述后续单元还包括第一数据写入单元，

所述第一数据写入单元，还用于接收针对所述运算结果的第三写请求，根据所述第三写请求存储所述运算结果。

8.根据权利要求5所述的装置，其特征在于，

所述写描述符解析单元，还用于在确定所述第一写填充描述符满足优化条件时，对所述第一写填充描述符进行优化得到优化后写填充描述符，根据所述优化后写填充描述符生成所述写填充数据，并将所述优化后写填充描述符作为第一写填充描述符发送至所述第一数据写入单元。

9.根据权利要求1所述的装置，其特征在于，所述装置包括数据存储模块，所述数据存储模块包括所述数据读取单元、所述读描述符解析单元、所述后续单元中的至少一个。

10.根据权利要求5所述的装置，其特征在于，所述第二读填充描述符包括以下至少一项：所述读填充数据在所述第一数据中的填充位置、所述读填充数据的数据量、所述读填充数据的数据格式，

11.一种数据处理方法，其特征在于，应用于数据处理装置，所述数据处理装置包括读描述符解析单元、数据读取单元，所述方法包括：

12.一种非易失性计算机可读存储介质，其特征在于，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求11所述的数据处理方法。

13.一种数据处理装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求11所述的数据处理方法。