CN114817845B

CN114817845B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114817845B
Application number: CN202210552885.0A
Authority: CN
Inventors: 张欢; 陈庆澍
Original assignee: Kunlun Core Beijing Technology Co ltd
Current assignee: Kunlun Core Beijing Technology Co ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-05-30
Anticipated expiration: 2042-05-20
Also published as: CN114817845A

Abstract

本公开提供了数据处理方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及深度学习等人工智能等技术领域。具体实现方案为：获取目标模型的输入数据，所述输入数据包括第一稀疏矩阵；根据所述目标模型对所述第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果；所述第一行数据包括所述第一稀疏矩阵中的行数据；根据所述目标模型对所述第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果；所述第二行数据包括所述第一稀疏矩阵中的非零行数据；根据所述第一计算结果和所述第二计算结果，获得所述输入数据处理结果。本公开实施例能够提高模型输入数据处理的效率。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习等人工智能技术领域，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，需要计算机处理的数据也越来越多，处理难度越来越大，为了满足用户日益增长的使用需求，数据处理技术也不断面临着新的挑战。

比如，深度学习模型或机器学习模型是处理数据的常用工具之一。模型能够对大量的输入数据进行分析，得到输出数据，并能够根据输出数据的正确性进行自身算法的调整，实现自我优化和训练。由于模型所处理的输入数据的数据量可能较多，影响模型的处理效率，因此需要对此进行优化。

发明内容

本公开提供了一种数据处理方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种获取目标模型的输入数据，输入数据包括第一稀疏矩阵；

根据目标模型对第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果；第一行数据包括第一稀疏矩阵中的行数据；

根据目标模型对第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果；第二行数据包括第一稀疏矩阵中的非零行数据；

根据第一计算结果和第二计算结果，获得输入数据处理结果。

根据本公开的第二方面，提供了一种数据处理装置，包括：

输入数据获取模块，用于获取目标模型的输入数据，输入数据包括第一稀疏矩阵；

第一行数据计算模块，用于根据目标模型对第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果；第一行数据包括第一稀疏矩阵中的行数据；

第二行数据计算模块，用于根据目标模型对第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果；第二行数据包括第一稀疏矩阵中的非零行数据；

处理结果模块，用于根据第一计算结果和第二计算结果，获得输入数据处理结果。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述第一方面的信息展示方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行前述方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本实施例提供的方案，能够在第一处理模块处理第一原始数据得到的第一数据的过程中，同步采用第二处理模块处理第二原始数据得到的第二数据，从而可将不同的原始数据先后输入第一数据处理模块或第二数据处理模块，使第一数据处理模块和第二数据处理模块并行运行，提高原始数据处理效率，在需要处理的原始数据量较大的情况下，具有更为显著的效率提升效果。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的数据处理方法的流程示意图；

图2是根据本公开另一实施例的数据处理方法的流程示意图；

图3是根据本公开另一实施例的数据处理方法的流程另一示意图；

图4是根据本公开一示例的数据处理方法示意图；

图5A-5E是根据本公开一示例的矩阵计算处理示意图；

图6是根据本公开一实施例的数据处理装置示意图；

图7是根据本公开一实施例的数据处理装置的另一示意图；

图8是根据本公开另一实施例的数据处理装置示意图；

图9是根据本公开另一实施例的数据处理装置另示意图；

图10是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开第一方面实施例提供一种数据处理方法，如图1所示，包括：

步骤S101：获取目标模型的输入数据，输入数据包括第一稀疏矩阵；

步骤S102：根据目标模型对第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果；第一行数据包括第一稀疏矩阵中的行数据；

步骤S103：根据目标模型对第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果；第二行数据包括第一稀疏矩阵中的非零行数据；

步骤S104：根据第一计算结果和第二计算结果，获得输入数据处理结果。

本实施例提供的方案可以应用于电子设备，尤其是终端设备，比如个人电脑、平板电脑、手机等等。

上述步骤S102、S103可以并行执行，进而进一步提高执行效率。

上述输入数据，可以是输入目标模型的模型输入层的数据，也可以是输入目标模型的模型中间处理层的数据。输入数据可以仅包含第一稀疏矩阵本身，也可以包含第一稀疏矩阵之外的其它内容。

上述目标模型，可以是未训练的原始模型，也可以是训练后的模型。本公开实施例提供的方法，可以应用于深度学习模型、机器学习模型。前述深度学习模型、机器学习模型可以是天气预测模型、生物生长预测模型、交通流量预测模型、用户喜好预测模型等预测类别的模型，也可以是文本处理模型、数值处理模型等分析类的模型，还可以是音频、视频处理模型，或者是其它根据输入数据生成输出数据的模型。

一般情况下，在矩阵中若数值为0的元素数目远远多于非0元素的数目，并且非0元素分布没有规律时，则称该矩阵为稀疏矩阵。第一稀疏矩阵就可以是前述稀疏矩阵。在一种可能的实现方式中，第一稀疏矩阵可以是根据其它数据生成的。

根据目标模型对第一稀疏矩阵中的第一行数据进行计算，可以是根据目标模型中对矩阵的计算逻辑、计算公式、计算层等，对第一稀疏矩阵中的第一行数据进行计算。可通过调用目标模型本身(目标模型中的至少一部分)来实现。

本实施例中，第一稀疏矩阵中的行数据，可以是第一稀疏矩阵的所有行的数据。行数据可以包含矩阵中一行数据，即行向量。第一行数据本身等于第一稀疏矩阵，第一行数据的处理结果具体可以是与第一行数据相同行列的矩阵，第一行数据的处理结果和第一稀疏矩阵中，同行同列的元素存在对应关系，即第一行数据的处理结果中的元素，可以为第一稀疏矩阵中同行同列的元素计算得到的。

根据目标模型对第一稀疏矩阵中的第二行数据进行计算，可以是根据目标模型中对矩阵进行计算的逻辑、公式或原理，对第二行数据进行计算。非零行数据，可以是矩阵中包含至少一个非零元素的行。比如，一个3×2矩阵中，第二行第二列元素为1，其余元素均为0，则第二行的数据[0，1]为非零行数据。

第二行数据可以是第一稀疏矩阵中部分行的数据，第二行数据可以按照原来在第一稀疏矩阵中对应的行号顺序，组成一个矩阵，根据第二行数据得到的第二计算结果，可以包括多个与第二行数据对应的行数据。比如，第二行数据包括三个行数据：[A]、[B]、[C]，则第二行数据的第二计算结果包括：[A]行数据对应的计算结果[A1]、[B]行数据对应的计算结果[B1]、[C]行数据对应的计算结果[C1]。

在一种实现方式中，第二行数据进行行维度的拼接所构成的矩阵，可以是非零行连续的矩阵。即所有第二行数据均至少包括一个非0元素。

本实施例中，根据第一计算结果和第二计算结果，获得输入数据处理结果，可以是根据第一计算结果，确定输入数据处理结果中与非第二计算结果对应的位置的处理结果，根据第二计算结果，确定输入数据处理结果中与第二计算结果对应的位置的处理结果，根据两部分处理结果，得到输入数据处理结果。

本实施例中，根据第一计算结果和第二计算结果，获得输入数据处理结果，也可以是将第一计算结果和第二计算结果进行行列式计算，获得输入数据处理结果。

可以看出，通过上述方案，能够在第一处理模块处理第一原始数据得到的第一数据的过程中，同步采用第二处理模块处理第二原始数据得到的第二数据，从而可将不同的原始数据先后输入第一数据处理模块或第二数据处理模块，使第一数据处理模块和第二数据处理模块并行运行，提高原始数据处理效率，在需要处理的原始数据量较大的情况下，具有更为显著的效率提升效果。在稀疏矩阵计算时，存在Lazy(懒惰)和非Lazy模式。上述步骤S101-S104可以实现非Lazy模式，若需要实现Lazy模式，则可将步骤S102设置为不执行，在步骤S104中仅根据第二计算结果获得输入数据处理结果即可。从而，本公开实施例也能够同时支持Lazy模式和非Lazy模式。

在一种实施方式中，如图2所示，根据目标模型对第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果，包括：

步骤S201：对第一稀疏矩阵中的第一行数据进行划分，获得多份第三行数据；

步骤S202：将多份第三行数据分配至多个计算节点，获得所述多个计算节点按照目标模型对所述第一稀疏矩阵的计算逻辑输出的多个第三行数据计算结果；

步骤S203：基于多份第三行数据的原始行号，对多个第三行数据计算结果进行行维度的拼接，得到第二稀疏矩阵；

步骤S204：将第二稀疏矩阵作为第一计算结果。

对第一行数据进行划分，获得多份第三行数据，可以是按照节点数量，对第一行数据进行均分。

本实施例中对第一行数据进行划分，可以包括以行为单位，对第一行数据进行均分。比如，第一行数据包括X行，将X行分为N等份，每一等份包括根据X/N得到的最大整数Y，每份第三行数据包括Y个行数据。如果Y×N小于总行数，则可以将超过总行数的行，依次分配至多个计算节点中的部分计算节点。

将所述多份第三行数据分配至多个计算节点，获得所述多个计算节点按照目标模型对所述第一稀疏矩阵的计算逻辑输出的多个第三行数据计算结果，可以是将第三行数据分配至多个计算节点，控制每个计算节点对分配到的第三行数据进行计算，得到每个计算节点按照目标模型对所述第一稀疏矩阵的计算逻辑输出的多个第三行数据计算结果。

基于所述多份第三行数据的原始行号，对所述多个第三行数据计算结果进行行维度的拼接，得到第二稀疏矩阵，可以是通过拼接将第三行数据构成新的矩阵，即第二稀疏矩阵，其中第二稀疏矩阵与第一稀疏矩阵中同行的元素存在对应关系。在一种实现方式中，第二稀疏矩阵的每行的元素是第一稀疏矩阵中同行的元素计算得到的。

本实施例中，能够通过将第三行数据分配至多个计算节点，获得计算结果，从而能够使得第一稀疏矩阵的计算过程被分成多个子计算过程，多个子计算过程并行执行，提高了计算效率。

在上述实施例应用到模型训练或模型运行过程中结合AI(ArtificialIntelligence，人工智能)加速卡提高计算速度的场景中时，能充分利用AI加速卡的SIMD(Single Instruction Multiple Data，单指令多数据流)并行计算能力。

在一种实施方式中，根据目标模型对第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果，如图3所示，包括：

步骤S301：将第二行数据进行行维度的拼接，得到第一稠密矩阵；

步骤S302：按照目标模型中对稀疏矩阵进行计算的计算逻辑，对第一稠密矩阵进行计算，获得第二稠密矩阵；

步骤S303：将第二稠密矩阵作为第二计算结果。

本实施例中，第一稠密矩阵、第二稠密矩阵可以本身为稀疏矩阵且该稀疏矩阵的每行元素不全为0，第一稠密矩阵、第二稠密矩阵也可以为数学领域内定义的稠密矩阵。

将第二行数据进行行维度的拼接，可以是按照第二行数据在第一稀疏矩阵中对应的顺序，进行列方向的重叠，得到拼接矩阵。比如，将三个三维行数据进行行维度的拼接，得到3×3矩阵。

在目标模型中，可根据计算经度的不同，对应设置不同的计算模式。不同的计算模式可包含不同的计算逻辑或者不同计算逻辑的组合。针对矩阵的计算逻辑，可以包含用于计算稀疏矩阵的逻辑，也可以包含用于计算稠密矩阵的逻辑。

本公开实施例中的稀疏矩阵，均可以为数学领域中定义的稀疏矩阵。本公开实施例中的稠密矩阵，其每行元素不全为0。

由于一般情况下，第一稀疏矩阵中包含非零元素的行数量很少，很可能存在包含非零元素的行为个位数，而全零元素的行为三位数以上。本实施例中，将第二行数据拼接为第一稠密矩阵进行计算，第一稠密矩阵为非零行连续的矩阵，即第一稠密矩阵中连续的行编号对应的行均为非零行，从而便于进行单指令多数据流计算，能够节省计算时间。

在一种实施方式中，根据第一计算结果和第二计算结果，获得输入数据处理结果，包括：

基于所述第二行数据的行号，将所述第二稠密矩阵的各行，覆盖至所述第二稀疏矩阵的矩阵行，得到所述输入数据处理结果。

基于所述第二行数据的行号，将所述第二稠密矩阵的各行，覆盖至所述第二稀疏矩阵的矩阵行，得到所述输入数据处理结果，具体可以为：将第二稠密矩阵中的各行，按照原始行号覆盖第二稀疏矩阵中的行数据。比如，第一稠密矩阵为第一稀疏矩阵中的3、6、11行构成的，第二稠密矩阵中的1-3行数据分别是对第一稠密矩阵中的1-3行数据计算得到的，则第二稠密矩阵中的1-3行数据分别覆盖第一稀疏矩阵中的3、6、11行的行数据。

由于第二稠密矩阵是对第一稠密矩阵进行逐行计算获得的，从而第二稠密矩阵中的数据符合目标模型中对稀疏矩阵进行计算的计算逻辑，将第二稠密矩阵的各行覆盖第二稀疏矩阵中对应的行，从而得到的结果为按照目标模型中对稀疏矩阵进行计算的计算逻辑获得的结果。同时，无需对整个第一稀疏矩阵进行逐行的计算。

本实施例中，通过覆盖的方式将第一计算结果和第二计算结果进行融合，无需逐行处理第一计算结果的行数据，从而节省串行逐行处理第一稀疏矩阵行数据所消耗的大量时间，提高处理效率。

在一种实施方式中，第二行数据为第一稀疏矩阵中的非零行数据，即第二行数据不包括全0行数据。全0行数据为所有元素皆为0的行数据。

非零行数据为元素不全为0的行数据。

一般情况下，第一稀疏矩阵中的全0行的计算结果也是全0行。本实施例中，第二行数据仅包含第一稀疏矩阵中的非零行数据，从而保留第一稀疏矩阵中的非0元素的，保留了第一稀疏矩阵中的非重复性的关键信息，同时，提高第一稀疏矩阵的处理效率。

在本公开一种示例中，稀疏矩阵的计算，有两种计算模式，Lazy和非Lazy模式。

如果是Lazy模式，只需计算非稀疏的部分，稀疏的数据认为是0，不用参与计算。

如果是非Lazy模式，不仅非稀疏部分要参与计算，稀疏部分要参与计算，只不过计算逻辑中的“Grad”梯度部分内容默认为以0数值参与计算，相当于与梯度相关的计算就直接省掉了，从而能减少一部分计算流。采用Lazy模式或非Lazy模式进行计算，可根据计算任务的精度要求进行确定。比如，精度要求高时，可采用非Lazy模式进行计算，精度要求相对较低时，可采用Lazy模式进行计算。

由于一般情况下，作为模型输入数据的稀疏矩阵比较特殊，表现为宽度很窄，高度很高，即作为模型输入数据的稀疏矩阵一般为：窄长型的矩阵。同时，有效的计算数据是离散分布的(稀疏的)，作为模型输入数据的稀疏矩阵中，行数据大部分不存在非零元素，非零行和全零行之间不连续，不能直接用AI加速卡中的并行指令进行计算。

而本示例可以通过计算过程的分析拆解，将一个底层API算子(ApplicationProgramming Interface，应用程序接口)拆分成几个高性能的API原子功能(最小粒度的功能)实现，特别的，还可以配合多stream(流)机制来实现。

如图4所示，在本公开示例中，数据处理方法包括：

S401：实现一个稠密计算的kernel(核)1，整个矩阵按照稠密的连续数据的来看待，计算稠密的结果。

S402：实现一个类似词表查询(根据离散的索引行号index，去查找index指向的行)功能的kernel2，将需要参与稀疏计算逻辑的数据行提取出来，使其在内存排列成连续的数据。方便后续进行simd计算。类似词表查询时，可根据离散的索引行号index(索引)，去查找index指向的行。

S403：实现一个稀疏计算逻辑的kernel3，将kernel2的输出作为kernel3的输入。从而计算完成后的结果也是连续的。

S404：实现一个kernel4，将kernrl3计算完成后的结果作为输入，填充回kernel1结果对应的行号。

这样kernerl1、kernel2可以在不同stream并行执行，来进一步提升性能。

本公开示例中，在推荐系统的模型训练任务执行过程中，为了提高模型处理数据的性能，需要优化Sparse Adam Op(稀疏优化器算子)优化器的底层算子，需要在通用AI加速卡上实现矩阵的稀疏计算。通过本公开实施例提供的方法进行优化后，模型训练和模型运行任务的性能大幅上升。

如图5A-5E为本公开示例中的第一稀疏矩阵处理过程中的矩阵转换、计算过程。

图5A所示的矩阵可以为前述实施例的第一稀疏矩阵，在第一稀疏矩阵中，第1、4、6、8、13、14行的行数据中，包含非0元素。其余行均为全0行。图5A中示的1-15的编号，可以是对第一稀疏矩阵的行数据增加的索引。实际应用中，稀疏矩阵可能存在上百万行，即上百万个行数据。比如，第一稀疏矩阵为1000001×9的矩阵。图5A-5E为举例说明，对实际情况进行简化示意。

图5B为对图5A所示的矩阵的全部行数据进行稠密计算，得到计算结果，该计算结果可以相当于前述实施例的第一计算结果。其中稠密计算可以为采用目标模型对稠密矩阵的计算逻辑进行计算。

在图5B所示的实例中，把整个第一稀疏矩阵看做一个整体，按照稠密计算逻辑来算得到的第一计算结果仍然是稀疏矩阵，即前述第二稀疏矩阵。在计算过程中，可考虑给多核合理划分计算任务，通过SIMD指令来并行执行。

图5C为对图5A中包含非0元素的非零行数据进行提取，得到提取后的矩阵的过程。其中，提取后的矩阵可以相当于前述实施例的第一稠密矩阵。第一稠密矩阵为非零行连续的矩阵，即存在一系列连续行号对应的行均为非零行。

图5D为对图5C所提取得到的提取后的第一稠密矩阵进行稀疏计算，得到的计算结果，该计算结果可以相当于前述实施例的第二稠密矩阵或可以称为第二计算结果。前述稀疏计算可以是采用目标模型中的稀疏计算逻辑执行的计算。

然后根据所述第一计算结果和所述第二计算结果，获得所述输入数据处理结果，即图5E所示为基于所述第二行数据的行号，将所述第二稠密矩阵的各行，覆盖至所述第二稀疏矩阵的矩阵行，得到所述输入数据处理结果。

稀疏计算逻辑是一行一行进行逐行计算，耗时巨大。如果是超大规模的稀疏矩阵，内核在逐行计算时，将面临上百万行数据，耗时将增加很多倍。在实际应用中，采用本公开示例提供的方式的计算过程耗时为几千纳秒级别，相比之下，传统的逐行计算过程耗时为几十万纳秒级别。可以看出，本公开实施例提供了通用的高性能计算方案，能同时满足稀疏矩阵计算的Lazy和非Lazy模式。且用多stream的方法来进一步提高计算任务的并行度。将一个kernel拆分成多个kernel，灵活性、扩展性都得到体现。

本公开实施例还提供一种数据处理装置，如图6所示，包括：

输入数据获取模块601，用于获取目标模型的输入数据，输入数据包括第一稀疏矩阵；

第一行数据计算模块602，用于根据目标模型对第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果；第一行数据包括第一稀疏矩阵中的行数据；

第二行数据计算模块603，用于根据目标模型对第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果；第二行数据包括第一稀疏矩阵中的非零行数据；

处理结果模块604，用于根据第一计算结果和第二计算结果，获得输入数据处理结果。

在一种实施方式中，如图7所示，第一行数据计算模块包括：

划分单元701，用于对所述第一稀疏矩阵中的第一行数据进行划分，获得多份第三行数据；

分配单元702，用于将所述多份第三行数据分配至多个计算节点，获得所述多个计算节点按照目标模型对所述第一稀疏矩阵的计算逻辑输出的多个第三行数据计算结果；

拼接单元703，用于基于所述多份第三行数据的原始行号，对所述多个第三行数据计算结果进行行维度的拼接，得到第二稀疏矩阵；

第一结果单元704，用于将第二稀疏矩阵作为第一计算结果。

在一种实施方式中，如图8所示，第二行数据计算模块包括：

第一稠密矩阵单元801，用于将第二行数据进行行维度的拼接，得到第一稠密矩阵；

第二稠密矩阵单元802，用于按照目标模型中对稀疏矩阵进行计算的计算逻辑，对第一稠密矩阵进行计算，获得第二稠密矩阵；

第二结果单元803，用于将第二稠密矩阵作为第二计算结果。

在一种实施方式中，如图9所示，处理结果模块包括：

覆盖单元901，用于基于所述第二行数据的行号，将所述第二稠密矩阵的各行，覆盖至所述第二稀疏矩阵的矩阵行，得到所述输入数据处理结果。

在一种实施方式中，第二行数据为第一稀疏矩阵中的非零行数据。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理。例如，在一些实施例中，上文所描述的各个方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文所描述的各个方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上文所描述的各个方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，应用于使用人工智能加速卡的计算场景，包括：

获取目标模型的输入数据，所述输入数据包括第一稀疏矩阵；

根据所述目标模型对所述第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果，包括：利用所述人工智能加速卡的核2对所述第一稀疏矩阵中的所述第一行数据进行划分，获得多份第三行数据；将所述多份第三行数据分配至多个计算节点，获得所述多个计算节点利用所述人工智能加速卡的核3按照目标模型对所述第一稀疏矩阵的计算逻辑输出的多个第三行数据计算结果；利用所述人工智能加速卡的核4基于所述多份第三行数据的原始行号，对所述多个第三行数据计算结果进行行维度的拼接，得到第二稀疏矩阵；将所述第二稀疏矩阵作为所述第一计算结果；所述第一行数据包括所述第一稀疏矩阵中的行数据；

根据所述目标模型对所述第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果，包括：将所述第二行数据进行行维度的拼接，得到第一稠密矩阵；利用所述人工智能加速卡的核1按照所述目标模型中对稀疏矩阵进行计算的计算逻辑，对所述第一稠密矩阵进行计算，获得第二稠密矩阵；将所述第二稠密矩阵作为所述第二计算结果；所述第二行数据包括所述第一稀疏矩阵中的非零行数据；所述核1和所述核2的计算过程在不同的流执行；

根据所述第一计算结果和所述第二计算结果，获得所述输入数据处理结果，包括：基于所述第二行数据的行号，将所述第二稠密矩阵的各行，覆盖至所述第二稀疏矩阵的矩阵行，得到所述输入数据处理结果。

2.根据权利要求1所述的方法，其中，所述第二行数据为所述第一稀疏矩阵中的非零行数据。

3.一种数据处理装置，应用于使用人工智能加速卡的计算场景，包括：

输入数据获取模块，用于获取目标模型的输入数据，所述输入数据包括第一稀疏矩阵；

第一行数据计算模块，用于根据所述目标模型对所述第一稀疏矩阵中的第一行数据进行计算，获得第一计算结果，所述第一行数据计算模块包括：划分单元，用于利用所述人工智能加速卡的核2对所述第一稀疏矩阵中的所述第一行数据进行划分，获得多份第三行数据；分配单元，用于将所述多份第三行数据分配至多个计算节点，获得所述多个计算节点利用所述人工智能加速卡的核3按照目标模型对所述第一稀疏矩阵的计算逻辑输出的多个第三行数据计算结果；拼接单元，用于利用所述人工智能加速卡的核4基于所述多份第三行数据的原始行号，对所述多个第三行数据计算结果进行行维度的拼接，得到第二稀疏矩阵；第一结果单元，用于将所述第二稀疏矩阵作为所述第一计算结果；所述第一行数据包括所述第一稀疏矩阵中的行数据；

第二行数据计算模块，用于根据所述目标模型对所述第一稀疏矩阵中的第二行数据进行计算，获得第二计算结果，所述第二行数据计算模块包括：第一稠密矩阵单元，用于将所述第二行数据进行行维度的拼接，得到第一稠密矩阵；第二稠密矩阵单元，用于利用所述人工智能加速卡的核1按照所述目标模型中对稀疏矩阵进行计算的计算逻辑，对所述第一稠密矩阵进行计算，获得第二稠密矩阵；第二结果单元，用于将所述第二稠密矩阵作为所述第二计算结果；所述第二行数据包括所述第一稀疏矩阵中的非零行数据；所述核1和所述核2的计算过程在不同的流执行；

处理结果模块，用于根据所述第一计算结果和所述第二计算结果，获得所述输入数据处理结果，所述处理结果模块包括：覆盖单元，用于基于所述第二行数据的行号，将所述第二稠密矩阵的各行，覆盖至所述第二稀疏矩阵的矩阵行，得到所述输入数据处理结果。

4.根据权利要求3所述的装置，其中，所述第二行数据为所述第一稀疏矩阵中的非零行数据。

5.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1或2所述的方法。

6.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1或2所述的方法。