CN114564686A

CN114564686A - 用于生成张量运算的算子的方法、设备、系统和存储介质

Info

Publication number: CN114564686A
Application number: CN202210237709.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Biren Intelligent Technology Co Ltd
Current assignee: Shanghai Biren Intelligent Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-05-31

Abstract

本公开涉及一种用于生成张量运算的算子的方法、计算设备、计算系统和存储介质。该方法包括：解析输入信息，以用于生成矩阵序列；基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息；将所生成的符号表征信息转换为抽象语法树信息或中间表达信息；以及基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码。本公开能够充分利用各处理器的硬件性能，并且针对GPU能够高效生成高性能张量运算的算子库。

Description

用于生成张量运算的算子的方法、设备、系统和存储介质

技术领域

本公开的实施例总体上涉及信息处理领域，更具体地涉及一种用于生成张量运算的算子的方法、计算设备和存储介质。

背景技术

张量(Tensor)是高维数组。张量运算(Tensor)是数字信号处理领域，特别是深度学习的基础运算。以傅里叶变换(Fourier Transform)为例，其是数字信号处理领域中一个非常重要的数学变换方法，用来实现信号从时域到频域的变换过程。离散傅里叶变换(Discrete Fourier Transform，DFT)是连续傅里叶变换在离散系统中的表示形式。快速傅里叶变换(Fast Fourier Transform，FFT)是利用计算机计算DFT的高效、快速计算方法的统称，其可以使计算机计算离散傅里叶变换所需要的乘法次数大为减少。

传统的用于生成张量运算的算子的方法，例如而不限于是基于CPU的FFT算子生成技术(例如可以通过调用FFTW库实现)，其一般都是首先生成高级语言的代码，如C或者C++；再通过编译器的编译生成最终面向具体硬件的目标文件。编译器的编译过程为了实现通用性，会忽略硬件具体特性，因而，上述方法虽然具有较高的灵活性，但是不能充分利用各处理器的硬件性能。如果想进一步提高程序的性能，仍然需要特殊的优化手段。

另外，目前针对GPU高效生成张量运算的算子的技术(例如自动生成高性能FFT算子库的技术)和产品较为少见。究其原因，一方面是因为硬件特性和软件抽象不同，无法将CPU上的张量运算的算子(例如，FFT算子)生成方法直接应用到GPU上；另一方面，即使能够利用相似于CPU上代码生成技术为GPU生成高级语言实现后再编译为GPU代码，代码的性能难以保证，与直接采用汇编设计的张量运算算法(例如，FFT算法)的性能还是又一定差距。另外，传统的张量运算的算子(例如，FFT算子)生成方案中仍然需要人工编写小代码片段模板进行特例化和组装，因而不利于张量运算(例如，FFT)加速库的开发效率的提升。

综上，传统的用于生成张量运算的算子的方案存在的不利之处在于：不能充分利用各处理器的硬件性能，而且难以有效针对GPU高效生成高性能张量运算的算子库。

发明内容

本公开提供了一种用于生成张量运算的算子的方法、计算设备、计算机可读存储介质，能够充分利用各处理器的硬件性能，并且针对GPU能够高效生成高性能张量运算的算子库。

根据本公开的第一方面，提供了一种用于生成张量运算的算子的方法。该方法包括：解析输入信息，以用于生成矩阵序列；基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息；将所生成的符号表征信息转换为抽象语法树信息和中间表达信息；以及基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码。

根据本发明的第二方面，还提供了一种计算设备。该计算设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算设备能够本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序被机器执行时执行本公开的第一方面的方法。

在一些实施例中，张量运算为快速傅里叶变换，基本描述信息至少包括：矩阵的尺寸、与矩阵相关联的运算操作和与矩阵相关联的运算所需硬件资源的描述参数。

在一些实施例中，用于生成张量运算的算子的方法还包括：以树形的数据结构存储关于矩阵序列的信息，关于矩阵序列的信息至少包括：矩阵序列所包括的多个子矩阵、与子矩阵相关联的运算符和操作数。

在一些实施例中，将所生成的符号表征信息转换为抽象语法树信息和中间表达信息包括：基于符号表征信息的标识信息，确定符号表征信息是否为代数表达式；响应于确定符号表征信息为代数表达式，经由抽象语法树解析算法，将符号表征信息转换为抽象语法树信息；以及响应于确定符号表征信息并非代数表达式，基于所生成的符号表征信息生成中间表达信息。

在一些实施例中，生成矩阵序列包括：获取待变换的输入数据的尺寸和变换类型；针对输入数据的尺寸进行质因数分解，以便分解成多个质因数；以及基于多个质因数和变换类型进行矩阵因子分解；以便生成矩阵序列。

在一些实施例中，基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息包括：将矩阵序列所包括的多个子矩阵中的当前子矩阵与当前子矩阵所对应的输入符号向量相乘，以便生成用于当前级运算的符号表征信息；以及将矩阵序列所包括多个子矩阵中的下一子矩阵与下一子矩阵所对应的输入符号向量相乘，以便生成用于下一级运算的符号表征信息，所述下一子矩阵所对应的输入符号向量是由当前子矩阵与当前子矩阵所对应的输入符号向量的乘积而生成的。在一些实施例中，与子矩阵相关联的运算符和操作数是基于针对特定类型的子矩阵的解析而生成的，特定类型的子矩阵是基于子矩阵的尺寸、子矩阵相关的计算行为和硬件资源的限制数据而确定的。

在一些实施例中，生成关于张量运算的算子的汇编代码包括：进行机器无关代码的优化；进行寄存器的分配；将中间表达信息中所指示的运算操作转换为对应汇编指令；针对抽象语法树信息进行解析，以生成中间表达信息；针对所生成的中间表达信息进行调度优化，以用于生成关于快速傅里叶变换的算子的汇编代码。

在一些实施例中，生成关于张量运算的算子的汇编代码包括：进行机器无关代码的优化；进行寄存器的分配；将中间表达信息中所指示的运算操作转换为对应汇编指令；将抽象语法树信息转换成汇编代码，以便进行调度；以及生成关于快速傅里叶变换的算子的汇编代码。

在一些实施例中，生成关于张量运算的算子的汇编代码包括：基于基本描述信息和基本描述信息的类型，生成关于快速傅里叶变换的算子的汇编代码，基本描述信息的类型包括：置换、离散傅里叶变换和旋转因子。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了根据本公开的实施例的用于生成张量运算的算子的方法的计算设备的示意图。

图2示出了根据本公开的实施例的用于生成张量运算的算子的方法的流程图。

图3示出了根据本公开的实施例的树形的数据结构的示意图。

图4示出了根据本公开的实施例的生成用于运算的符号表征信息的方法的示意图。

图5示出了根据本公开的实施例的用于生成关于张量运算的算子的汇编代码的方法的流程图。

图6示出了根据本公开的实施例的用于将所生成的符号表征信息转换为抽象语法树信息的方法的流程图。

图7示出了根据本公开的实施例的用于生成矩阵序列的方法的流程图。

图8示意性示出了适于用来实现本公开实施例的电子设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文所描述，传统的用于生成张量运算的算子的方案存在的不利之处在于，不能充分利用各处理器的硬件性能，而且难以有效针对GPU高效生成高性能张量运算的算子库。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于生成张量运算的算子的方法、计算设备、计算系统和计算机可读存储介质。在本公开方案中：通过解析输入信息而生成矩阵序列，以及基于矩阵序列和输入符号向量生成一系列运算的符号表征信息；然后基于所生成的矩阵序列和输入符号向量生成用于运算的符号表征信息；再将所生成的符号表征信息转换为抽象语法树信息和中间表达信息；以及基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码；本公开可以采用符号运算和AST解析技术，能够动态的生成各种中间小代码片段，避免了传统FFT算子生成方案中仍然需要人工编写小代码片段模板进行特例化和组装的问题，提高了张量运算的加速库的开发效率。另外，因为直接从AST和基本描述信息所反映硬件特性而生成汇编代码，避免了由于高级语言对硬件抽象有限，难以充分利用GPU特性的问题，使得生成的代码能够充分利用GPU进行高性能的张量运算。因此，本公开能够充分利用各处理器的硬件性能，并且针对GPU能够高效生成高性能张量运算的算子库。

图1示出了根据本公开的实施例的用于生成张量运算的算子的方法的计算设备100的示意图。如图1所示，计算设备100包括：矩阵序列构造模块110、符号表征信息和抽象语法树信息生成模块120、汇编代码生成模块130。在一些实施例中，计算设备100可以具有一个或多个处理单元，包括诸如图像处理单元GPU、现场可编程门阵列FPGA和专用集成电路ASIC等的专用处理单元以及诸如中央处理单元CPU的通用处理单元。

关于矩阵序列构造模块110，其用于解析输入信息，以用于生成矩阵序列。具体而言，矩阵序列构造模块110获取待变换的输入数据的尺寸(size)和变换类型(type)；针对输入数据的尺寸进行质因数分解，以便分解成多个质因数(更细粒度的数据)；以及基于多个质因数和变换类型进行矩阵因子分解；以便生成矩阵序列。矩阵因子分解的方式取决于进行怎样形式的数据变换。

关于符号表征信息和抽象语法树信息生成模块120，其用于将矩阵序列构造模块110所生成矩阵序列转换为符号表征信息，以及将符号表征信息转换为抽象语法树信息和中间表达信息。符号表征信息和抽象语法树信息生成模块120例如进一步包括符号表征信息生成模块122、以及抽象语法树信息和中间表达信息生成模块124。符号表征信息生成模块122用于基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息。抽象语法树信息和中间表达信息生成模块124用于将所生成的符号表征信息转换为抽象语法树信息或中间表达信息。例如，将矩阵序列所包括的多个子矩阵中的当前子矩阵与当前子矩阵所对应的输入符号向量相乘，以便生成用于当前级运算的符号表征信息；以及将矩阵序列所包括多个子矩阵中的下一子矩阵与下一子矩阵所对应的输入符号向量(其中，该下一子矩阵所对应的输入符号向量是由当前子矩阵与当前子矩阵所对应的输入符号向量的乘积而生成的)相乘，以便生成用于下一级运算的符号表征信息，并将符号表达式生成为抽象语法树信息(Abstract Syntax Tree，AST)和中间表达信息(Intermediate representation，IR)。其中，中间表达(Intermediate representation，IR)包括基本描述信息。该基本描述信息能够反映张量运算的相关运算和硬件特性。在一些实施例中，基本描述信息至少包括：矩阵的尺寸、与矩阵相关联的运算操作和与矩阵相关联的运算所需硬件资源的描述参数。

关于汇编代码生成模块130，其用于基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码。

以下将结合图2描述根据本公开的实施例的用于生成张量运算的算子的方法200。图2示出了根据本公开的实施例的用于生成张量运算的算子的方法。应当理解，方法200例如可以在图8所描述的计算设备800处执行。也可以在图1所描述的计算设备100处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤202处，计算设备100解析输入信息，以用于生成矩阵序列。

关于生成矩阵序列的方法，其例如包括：基于待变换的输入数据的尺寸和变换类型，确定快速傅里叶变换算法；以及基于所确定的快速傅里叶变换算法，生成矩阵序列。再例如，计算设备100获取待变换的输入数据的尺寸和变换类型；针对输入数据的尺寸进行质因数分解，以便分解成多个质因数；以及基于多个质因数和变换类型进行矩阵因子分解；以便生成矩阵序列。以下结合图7说明用于生成矩阵序列的方法700，在此，不再赘述。

在一些实施例中，方法200还包括，计算设备100以树形的数据结构存储关于矩阵序列的信息，关于矩阵序列的信息至少包括：矩阵序列所包括的多个子矩阵、与子矩阵相关联的运算符和操作数。操作数，即，operand。运算符或者称为运算子，即，operator。由于树形的数据结构所存储的不仅包括便于数学上理解的子矩阵，而且所存储的与子矩阵相关联的运算符和操作数为矩阵运算或者操作的原子描述信息，藉此，本公开使得运算对于硬件更为友好。

在一些实施例中，其中与子矩阵相关联的运算符和操作数是基于针对特定类型的子矩阵的解析而生成的，特定类型的子矩阵是基于子矩阵的尺寸、子矩阵相关的计算行为和硬件资源的限制数据而确定的。例如，如果计算设备10基于当前子矩阵的尺寸和操作步长确定与当前子矩阵相关联的运算结果的范围小于或者等于硬件资源的预定限制阈值(例如而不限于为32)时，利用硬件资源的基本描述信息，解析当前子矩阵，以便生成与当前子矩阵相关联的运算符和操作数。基本描述信息例如还包括硬件的尺寸，能够同时处理数据的个数等等。

以下结合图3说明树形的数据结构的存储方式。图3示出了根据本公开的实施例的树形的数据结构300的示意图。图3所示的树形的数据结构300例如存储了关于矩阵序列的信息，该矩阵序列的信息指示了针对预定算法(I@P@I)*(I@DFT)*T进行矩阵因子分解操作所生成的多个子矩阵、与子矩阵相关联的运算符和操作数。

例如，标记332指示单位矩阵I的操作数(即，Operand：Identity matrix，I)。标记334指示原语矩阵P的操作数(即，Operand：Primitive matrix，P)。

标记322指示运算符@(即，Operator：@)，其指示针对标记322所对应节点之下的关联叶子节点的数据进行“@”运算，即针对标记332所指示的单位矩阵I的操作数(即，Operand：Identity matrix，I)和标记334所指示的原语矩阵P的操作数(即，Operand：Primitive matrix，P)进行“@”运算。标记322所对应节点的数据例如为“I@P”。

标记324指示单位矩阵I的操作数(即，Operand：Identity matrix，I)。标记312指示的运算符@(即，Operator：@)，其指示针对标记312所对应节点之下的关联叶子节点的数据进行“@”运算，即针对标记322所对应节点的数据(“I@P”)和标记324所指示的单位矩阵I的操作数(即，Operand：Identity matrix，I)进行“@”运算。标记312所对应节点的数据例如为“I@P@I”。

标记326指示的运算符@(即，Operator：@)，其指示针对标记326所对应节点之下的关联叶子节点的数据进行“@”运算，即针对标记336所指示的单位矩阵I的操作数(即，Operand：Identity matrix，I)和标记338所指示的DFT矩阵的操作数(即，Operand：DFTmatrix，DFT)所对应节点数据进行“@”运算。标记326所对应节点的数据例如为“I@DFT”。

标记328指示旋转矩阵T的操作数(即，Operand：Twiddle matrix，T)。标记316指示的运算符*(即，Operator：*)，其指示针对标记316所对应节点之下的关联叶子节点的数据进行“*”运算，即针对标记326所对应节点数据(“I@DFT”)和标记328所指示的旋转矩阵T的操作数(即，Operand：Twiddle matrix，T)所对应节点数据进行“*”运算。标记316所指示节点的数据例如为“(I@DFT)*T”。

标记302指示的运算符*(即，Operator：*)，其指示针对标记302所对应节点之下的关联叶子节点的数据进行“*”运算，即针对标记312所对应节点数据(“I@P@I”)和标记316所对应节点数据(“(I@DFT)*T”)进行“*”运算。标记302所指示节点的数据例如为(I@P@I)*(I@DFT)*T。

通过采用上述手段，本公开可以针对复杂的计算进行公式的化简，上述化简可以对于硬件更为友好，利于提高运算速度、降低计算资源的占用。

在步骤204处，计算设备100基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息。例如，计算设备100，将矩阵序列所包括的多个子矩阵中的当前子矩阵与当前子矩阵所对应的输入符号向量相乘，以便生成用于当前级运算的符号表征信息；以及将矩阵序列所包括多个子矩阵中的下一子矩阵与下一子矩阵所对应的输入符号向量相乘，以便生成用于下一级运算的符号表征信息，所述下一子矩阵所对应的输入符号向量是由当前子矩阵与当前子矩阵所对应的输入符号向量的乘积而生成的，以此类推，生成用于每一级运算的符号表征信息。通过采用上述手段，本公开可以通过符号化的形式(例如，计算机代数方式)解析待运算的张量运算算法。

关于输入符号向量，其为带运算的输入数据的符号表达。关于用于运算的符号表征信息，其例如是数组或者是列表形式的多级符号表达式。

以下结合图4说明生成用于运算的符号表征信息的方法400。图4示出了根据本公开的实施例的生成用于运算的符号表征信息的方法400的示意图。标记402指示所生成的矩阵序列，矩阵序列例如包括多个子矩阵，例如子矩阵

标记404指示输入符号矩阵，其中包括多个输入符号向量

矩阵序列中的各个子矩阵逐一与各个子矩阵所对应的输入符号向量进行矩阵向量相乘(例如，子矩阵412与符号向量414进行相乘)，以便生成用于每一级运算的符号表征信息406。如图4所示，子矩阵

与子矩阵

所对应的输入符号向量

相乘(如标记422所指示)，以便生成用于第一级运算的符号表征信息。如图4所示，标记416指示了子矩阵412与符号向量414进行相乘的结果，即第一级运算的符号表征信息。子矩阵

与输入符号向量

的乘积生成与子矩阵

所对应的输入符号向量

如标记423所指示；子矩阵

再与子矩阵

所对应的输入符号向量

相乘，以便生成用于第二级运算的符号表征信息；以此类推，直至生成用于每一级运算的符号表征信息。应当理解，当前子矩阵与当前子矩阵所对应的输入符号向量的乘积生成下一子矩阵所对应的输入符号向量。

例如，计算设备100确定矩阵序列是否还存在未转换为符号表征信息的子矩阵；如果计算设备100确定矩阵序列还存在未转换为符号表征信息的子矩阵，则未经转换的子矩阵与对应输入符号向量矩阵向量相乘，以便生成符号表征信息；如果计算设备100确定矩阵序列不存在未转换为符号表征信息的子矩阵，则针对整体的中间表达信息进行执行下文方法500中的对应步骤，以便生成关于张量运算的算子的汇编代码。

在步骤206处，计算设备100将所生成的符号表征信息转换为抽象语法树信息和中间表达信息。例如，如图4所示，计算设备100经由AST解析算法解析符号表征信息406的表达式，以便生成抽象语法树信息。通过采用上述手段，本公开可以使得符号表征信息转换为抽象语法树信息，以利于关于张量运算的算子的汇编代码的自动生成。在一些实施例中，计算设备100以树形的数据结构存储关于矩阵序列的信息，关于矩阵序列的信息至少包括：矩阵序列所包括的多个子矩阵、与子矩阵相关联的运算符和操作数。

关于将所生成的符号表征信息转换为抽象语法树信息的方法，其包括：基于符号表征信息的标识信息，确定符号表征信息是否为代数表达式；响应于确定符号表征信息为代数表达式，经由抽象语法树解析算法，将符号表征信息转换为抽象语法树信息；以及响应于确定符号表征信息并非代数表达式，基于所生成的符号表征信息生成中间表达信息。以下结合图6说明用于将所生成的符号表征信息转换为抽象语法树信息的方法600，在此，不再赘述。

在步骤208处，计算设备100基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码。

关于张量运算的算子的汇编代码，其例如是关于快速傅里叶变换的算子的汇编代码，即，用于完成预定尺寸、预定变换类型的傅里叶变换的汇编代码。在一些实施例中，张量运算也可以是正弦运算或者余弦运算等等。

在一些实施例中，计算设备100获取步骤206所生成的抽象语法树信息和中间表达信息；针对抽象语法树信息进行遍历，以便生成对应的汇编代码；以及基于中间表达信息所包括的基本描述信息组装对应的汇编代码。通过采用上述手段，本公开可以在针对抽象语法树信息和中间表达信息所包括的基本描述信息进行汇编时，选择不同的生成汇编代码的路径。

例如，首先看中间表达信息所包括的基本描述信息的类型(典型的基本描述信息的类型例如包括三种：置换、直接的傅里叶变换DFT、旋转因子)。鉴于三种类型的基本描述信息的所对应的运行行为具有较大差别，对应的汇编的表达方式存在较大差异，因此需要三个独立的模块分别构建对应的目标指令序列。具体而言，例如，计算设备100基于基本描述信息(例如向量颗粒度、块颗粒度、步长等)和基本描述信息的类型，生成关于张量运算的算子的汇编代码。例如，如果确定基本描述信息的类型为置换，基于硬件上支持的组以及移动指令来构建目标汇编指令序列。如果确定基本描述信息的类型为DFT，基于运算指令以及移动指令来构建目标汇编指令序列。如果确定基本描述信息的类型为旋转因子，基于硬件的运算功能以及移动功能来构建目标汇编指令序列。

在上述方案中，通过解析输入信息而生成矩阵序列，以及基于矩阵序列和输入符号向量生成一系列运算的符号表征信息；然后基于所生成的矩阵序列和输入符号向量生成用于运算的符号表征信息；再将所生成的符号表征信息转换为抽象语法树信息和中间表达信息；以及基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码；本公开可以采用符号运算和AST解析技术，能够动态的生成各种中间小代码片段，避免了传统FFT等张量运算算子生成方案中仍然需要人工编写小代码片段模板进行特例化和组装的问题，提高了张量运算的加速库的开发效率。

另外，在传统的用于生成张量运算的算子的方案中虽然可以预先将针对各种尺寸和类型优化过的变换编译链接进库中。但是，不可能将所有可能的尺寸全部放入库内，否则库的体积将无限扩大。对于一些不太常见的变换，致使GPU的性能并不能够完全释放。而本公开通过直接从AST和基本描述信息所反映硬件特性而生成汇编代码，避免了由于高级语言对硬件抽象有限，难以充分利用GPU特性的问题，使得生成的代码能够充分利用GPU进行高性能的FFT变换。因此，本公开能够充分利用各处理器的硬件性能，并且针对GPU能够高效生成高性能张量运算的算子库。

以下将结合图5描述根据本公开的一些实施例的用于生成关于张量运算的算子的汇编代码的方法500。图5示出了根据本公开的实施例的用于生成关于张量运算的算子的汇编代码的方法500的流程图。应当理解，方法500例如可以在图8所描述的计算设备800处执行。也可以在图1所描述的计算设备100处执行。应当理解，方法500还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤502处，计算设备100进行机器无关代码的优化。例如，计算设备100进行多层次的机器无关代码优化，例如，消除公共表达式等。

在一些实施例中，如果计算设备100确定矩阵序列不存在未转换的子矩阵，即，所有的子矩阵均已完成转换，则针对整体的中间表达信息进行机器无关代码的优化。在一些实施例中，如果计算设备100确定矩阵序列还存在未转换的子矩阵，则附加基于当前未转换的子矩阵所生成的符号表征信息而转换的中间表达信息，以便在确定矩阵序列不存在未转换的子矩阵时，针对整体的中间表达信息进行机器无关代码的优化。

在步骤504处，计算设备100进行寄存器的分配。中间表达信息遵从静态单赋值(Static Single Assignment，SSA)，即一个变量名称能且只能被赋值一次。

在步骤506处，计算设备100将中间表达信息中所指示的运算操作转换为对应汇编指令。

在步骤508处，计算设备100针对抽象语法树信息进行解析，以生成中间表达信息。

步骤510处，计算设备100针对所生成的中间表达信息进行调度优化，以用于生成关于快速傅里叶变换的算子的汇编代码。

通过采用上述手段，本公开能够进一步提高FFT加速库的开发效率。应当理解，本公开的IR既可以是从AST来的表达信息，也可以是基本描述信息的表达方式。本公开可以根据是由AST得到的IR，还是由基本描述信息得到的IR，在汇编代码生成时会走不同的路径。走完不同的路径之后，再利用例如常见的方式进行优化，以最终生成关于快速傅里叶变换的算子的汇编代码。

关于用于生成关于张量运算的算子的汇编代码的方法，在另一些实施例中，其例如包括：计算设备100进行机器无关代码的优化；进行寄存器的分配；将中间表达信息中所指示的运算操作转换为对应汇编指令；将抽象语法树信息转换成汇编代码，以便进行调度；以及生成关于快速傅里叶变换的算子的汇编代码。

以下将结合图6描述根据本公开的实施例的用于将所生成的符号表征信息转换为抽象语法树信息的方法600。图6示出了根据本公开的实施例的用于将所生成的符号表征信息转换为抽象语法树信息的方法600的流程图。应当理解，方法600例如可以在图8所描述的计算设备800处执行。也可以在图1所描述的计算设备100处执行。应当理解，方法600还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤602处，计算设备100基于符号表征信息的标识信息，确定符号表征信息是否为代数表达式。

在步骤604处，如果计算设备100确定符号表征信息为代数表达式，经由抽象语法树解析算法，将符号表征信息转换为抽象语法树信息。

在步骤606处，如果计算设备100确定符号表征信息并非代数表达式，基于所生成的符号表征信息生成中间表达信息。

通过采用上述手段，本公开可以将涉及硬件操作的部分写成中间表达信息，而直接的数学运算转换成抽象语法树信息，进而有利于生成张量运算(例如，快速傅里叶变换)的算子的过程中更加充分利用各处理器的硬件性能。

以下将结合图7描述根据本公开的实施例的用于生成矩阵序列的方法700。图7示出了根据本公开的实施例的用于生成矩阵序列的方法700的流程图。应当理解，方法700例如可以在图8所描述的计算设备800处执行。也可以在图1所描述的计算设备100处执行。应当理解，方法700还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤702处，计算设备100获取待变换的输入数据的尺寸和变换类型。

关于变换类型，其例如为DFT的变换方式，DFT的变换方式包括三种，分别是Real-complex、complex-complex、complex-real。变换类型不同，则DFT的算法表达式不同。

在步骤704处，计算设备100针对输入数据的尺寸进行质因数分解，以便分解成多个质因数。

应当理解，库利-图基快速傅里叶变换(FFT)算法是一种很常见的加速离散傅里叶变换(DFT)的算法。库-图快速傅里叶算法的本质是递归地将一个合数点数的N点DFT拆分成k个m点DFT。

计算设备100可以采用多种方式针对待变换的输入数据的尺寸进行质因数分解。例如而不限于采用Pollard Rho快速因数分解方法，将输入数据的尺寸分解成几个质因相乘的形式。

例如，计算设备100将最小质数确定为当前质数；如果确定待变换的输入数据的尺寸等于当前质数，则确定质因数分解结束；如果确定待变换的输入数据的尺寸大于当前质数并且待变换的输入数据的尺寸可以被当前质数整除，则输出当前质数为多个质因数中的一个质因数；获取待变换的输入数据的尺寸除以当前质数的商，以便确定商是否等于当前质数_；如果确定商等于当前质数，则输出商为多个质因数中的一个质因数；如果待变换的输入数据的尺寸大于当前质数并且输入数据的尺寸不可以被当前质数整除，则使得当前质数加1，用以更新当前质数；重复确定待变换的输入数据的尺寸是否等于更新后的当前质数。应当理解，也可以采用其他方式针对待变换的输入数据的尺寸进行质因数分解。

在步骤706处，计算设备100基于多个质因数和变换类型进行矩阵因子分解；以便生成矩阵序列。矩阵因子分解的方式通常取决于需要进行怎样的数据变换。例如，可以通过递归的矩阵因子分解的方式，将DFT分解为包括多个子矩阵的矩阵序列。

DFT是给定输入向量(即信号的采样序列)到输出向量(频谱，其元素均为复数)的线性变换，以下结合公式(1)说明FFT的算法。

在上述公式(1)中，

代表给定输入向量。

代表输出向量。DFT_N代表N点离散傅里叶变换。以下结合公式(2)说明DFT的算法。

在上述公式(2)中，k代表基数(Radix)。I_m和I_k分别代表单位矩阵。

代表旋转因子的对角矩阵。

代表张量积(Kronecker)。N代表待变换的输入数据的尺寸。DFT_k代表k点离散傅里叶变换。DFT_m代表m点离散傅里叶变换。DFT_N可以被因式分解为由4个子矩阵

和

组成的矩阵序列。

应当理解，上述公式(2)所分解的矩阵序列中还包括更小尺寸的DFT_m和DFT_k，因此，还可以递归地针对DFT_m和DFT_k继续进行矩阵因子分解，直至k和m为质数，由此，可以最终得到包括更多子矩阵的矩阵序列。

通过采用上述手段，本公开可以将快速傅里叶变换算法分解成多个可以分立计算的更小尺寸的子矩阵。

图8示意性示出了适于用来实现本公开实施例的电子设备(或者计算设备)800的框图。设备800可以是用于实现执行图2、图5至图7所示的方法200、500至700的设备。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机存取存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可存储设备800操作所需的各种程序和数据。CPU、ROM以及RAM通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至输入/输出(I/O)805，包括：输入单元806、输出单元807、存储单元808，中央处理单元801执行上文所描述的各个方法和处理，例如执行方法200、500至700例如，在一些实施例中，方法200、500至700可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法200、500至700的一个或多个操作。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、500至700的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如C语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或步骤图描述了本公开的各个方面。应当理解，流程图和/或步骤图的每个方步骤以及流程图和/或步骤图中各方步骤的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作。

附图中的流程图和步骤图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或步骤图中的每个方步骤可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方步骤中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，步骤图和/或流程图中的每个方步骤、以及步骤图和/或流程图中的方步骤的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于生成张量运算的算子的方法，包括：

解析输入信息，以用于生成矩阵序列；

基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息；

将所生成的符号表征信息转换为抽象语法树信息和中间表达信息；以及

基于所生成的抽象语法树信息和中间表达信息所包括的基本描述信息，生成关于张量运算的算子的汇编代码。

2.根据权利要求1所述的方法，其中所述张量运算为快速傅里叶变换，所述基本描述信息至少包括：矩阵的尺寸、与矩阵相关联的运算操作和与矩阵相关联的运算所需硬件资源的描述参数。

3.根据权利要求1所述的方法，还包括：

以树形的数据结构存储关于矩阵序列的信息，关于矩阵序列的信息至少包括：矩阵序列所包括的多个子矩阵、与子矩阵相关联的运算符和操作数。

4.根据权利要求1所述的方法，其中将所生成的符号表征信息转换为抽象语法树信息和中间表达信息包括：

基于符号表征信息的标识信息，确定符号表征信息是否为代数表达式；

响应于确定符号表征信息为代数表达式，经由抽象语法树解析算法，将符号表征信息转换为抽象语法树信息；以及

响应于确定符号表征信息并非代数表达式，基于所生成的符号表征信息生成中间表达信息。

5.根据权利要求2所述的方法，其中生成矩阵序列包括：

获取待变换的输入数据的尺寸和变换类型；

针对输入数据的尺寸进行质因数分解，以便分解成多个质因数；以及

基于多个质因数和变换类型进行矩阵因子分解；以便生成矩阵序列。

6.根据权利要求1所述的方法，其中基于所生成的矩阵序列和输入符号向量，生成用于运算的符号表征信息包括：

将矩阵序列所包括的多个子矩阵中的当前子矩阵与当前子矩阵所对应的输入符号向量相乘，以便生成用于当前级运算的符号表征信息；以及

将矩阵序列所包括多个子矩阵中的下一子矩阵与下一子矩阵所对应的输入符号向量相乘，以便生成用于下一级运算的符号表征信息，所述下一子矩阵所对应的输入符号向量是由所述当前子矩阵与所述当前子矩阵所对应的输入符号向量的乘积而生成的。

7.根据权利要求3所述的方法，其中与子矩阵相关联的运算符和操作数是基于针对特定类型的子矩阵的解析而生成的，所述特定类型的子矩阵是基于子矩阵的尺寸、子矩阵相关的计算行为和硬件资源的限制数据而确定的。

8.根据权利要求2所述的方法，其中生成关于张量运算的算子的汇编代码包括：

进行机器无关代码的优化；

进行寄存器的分配；

将中间表达信息中所指示的运算操作转换为对应汇编指令；

针对抽象语法树信息进行解析，以生成中间表达信息；

针对所生成的中间表达信息进行调度优化，以用于生成关于快速傅里叶变换的算子的汇编代码。

9.根据权利要求2所述的方法，其中生成关于张量运算的算子的汇编代码包括：

进行机器无关代码的优化；

进行寄存器的分配；

将中间表达信息中所指示的运算操作转换为对应汇编指令；

将抽象语法树信息转换成汇编代码，以便进行调度；以及

生成关于快速傅里叶变换的算子的汇编代码。

10.根据权利要求2所述的方法，其中生成关于张量运算的算子的汇编代码包括：

基于基本描述信息和基本描述信息的类型，生成关于快速傅里叶变换的算子的汇编代码，基本描述信息的类型包括：置换、离散傅里叶变换和旋转因子。

11.一种计算设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被机器执行时执行根据权利要求1-10中任一项所述的方法。