CN118151906B

CN118151906B - 一种算子的自动生成方法、装置、设备及介质

Info

Publication number: CN118151906B
Application number: CN202410579004.3A
Authority: CN
Inventors: 吴健; 贾明桥; 柴亮; 赵黎明; 闫燕莺; 翟志宏; 卫创; 景鹏飞
Original assignee: Shanghai Suiyuan Intelligent Technology Co ltd
Current assignee: Shanghai Suiyuan Intelligent Technology Co ltd
Priority date: 2024-05-11
Filing date: 2024-05-11
Publication date: 2024-07-23
Anticipated expiration: 2044-05-11
Also published as: CN118151906A

Abstract

本发明公开了一种算子的自动生成方法、装置、设备及介质。该方法由在AI编译器中预先加载的算子自动生成工具执行，包括：根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，并生成目标算子的自有算子语义表达；根据自有算子语义表达生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对初始函数进行优化处理；根据选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现。采用上述技术方案，能够根据目标算子的高级语义算子描述，自动生成算子实现，有效提高算子代码编写效率，并保证代码质量。

Description

一种算子的自动生成方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种算子的自动生成方法、装置、设备及介质。

背景技术

AI（Artificial Intelligence，人工智能）编译器作为深度学习与人工智能芯片的沟通桥梁，需要将深度学习算法模型逐步转变为可供特定机器执行的可执行文件。AI编译器一般由前端和后端两部分组成，其中，前端用于将深度学习模型与深度学习框架连接，将框架层转化为高级中间表达，以及将高级中间表达转换为算子的具体实现。

生成算子的具体实现是AI编译器中较为重要的一环，算子实现的优劣将直接影响深度学习网络在硬件上执行的性能，但在现有常见的深度学习框架下，算子种类数量较为庞大。

传统的深度学习算子通常是由技术人员在AI编译器的前端手工编写完成，编写工程量大、实现周期长，并且手工编写出来的算子质量和程序员个人的经验、技术呈正相关，不同的技术人员编写的算子质量参差不齐，并且，若手工编写的算子对特定的芯片架构进行了优化，则会降低代码的可移植性，而随着不同芯片架构的推出，还需要进行额外的工作来适配和优化算子，从而加大技术人员的工作量。

发明内容

本发明提供了一种算子的自动生成方法、装置、设备及介质，能够根据目标算子的高级语义算子描述，自动生成算子实现，有效提高算子代码编写效率，并保证代码质量。

根据本发明的一方面，提供了一种算子自动生成方法，由在AI编译器中预先加载的算子自动生成工具执行，包括：

根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，并根据所述高级语义算子描述以及所述目标算子类型，生成目标算子的自有算子语义表达；

根据所述自有算子语义表达生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对所述初始函数进行优化处理；

根据所述选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现。

根据本发明的另一方面，提供了一种算子自动生成装置，由在AI编译器中预先加载的算子自动生成工具执行，包括：

自有算子语义表达生成模块，用于根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，并根据所述高级语义算子描述以及所述目标算子类型，生成目标算子的自有算子语义表达；

自有算子语义表达优化模块，用于根据所述自有算子语义表达生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对所述初始函数进行优化处理；

算子实现生成模块，用于根据所述选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的算子自动生成方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的算子自动生成方法。

本发明实施例的技术方案，通过根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，进而生成目标算子的自有算子语义表达，生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对初始函数进行优化处理，并根据选项集以及所述硬件信息，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与目标算子相对应的算子实现的方式，能够自动生成算子实现，并在生成算子实现的过程中进行多种优化，有效提高算子代码编写效率，并保证算子实现的质量，使得最终的算子实现能够适配于硬件，便于移植到不同硬件中，有效提高算子性能，保证各算子之间的一致性，便于维护，降低出错概率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种算子自动生成方法的流程图；

图2是根据本发明实施例二提供的另一种算子自动生成方法的流程图；

图3是根据本发明实施例三提供的一种算子自动生成装置的结构示意图；

图4是实现本发明实施例的算子自动生成方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种算子自动生成方法的流程图，本实施例可适用于根据目标算子的高级语义算子描述，自动生成算子实现的情况，该方法可以由算子自动生成装置来执行，该算子自动生成装置可以采用硬件和/或软件的形式实现，并一般可配置于在AI编译器中预先加载的算子自动生成工具中。如图1所示，该方法包括：

S110、根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，并根据高级语义算子描述以及所述目标算子类型，生成目标算子的自有算子语义表达。

可选的，AI编译器前端生成算子实现的整体流程可以包括：将深度学习算法模型与深度学习框架相连接，将深度学习算法模型转化为框架层，此时算法模型已经被拆分成以算子为单位的计算图；将框架层转化为高级语义算子描述；将算子的高级语义算子描述转换为算子的具体实现。

可选的，本发明提出的算子自动生成方法，可以代替现有的通过人工编写的方式将算子的高级语义算子描述转换为算子的具体实现，将算子自动生成工具配置在AI编译器的前端，可根据目标算子的高级语义算子描述，自动生成算子实现。

可选的，目标算子可以指计算图中的任一算子，且目标算子在计算图中由高级语言表达。

可选的，算子的高级语义算子描述中，一般可以包含算子间输入输出依赖关系、算子输入输出形状以及算子类型和所需参数。

可选的，在高级语义算子描述中，算子可以分为加减乘除等按元素操作的算子、矩阵乘法算子、卷积类算子以及数据访存相关的算子等多种算子类型，各算子类型具有与其相匹配的访存映射关系。

可选的，本发明提出的算子自动生成工具中，定义了自有算子语义体系，且在自有算子语义体系中预先定义了自有语义算子集，且自有语义算子集中包括多种自有语义算子，高级语义算子描述中具有相同访存映射关系的各类算子，在自有算子语义体系中可归为同一类自有语义算子。

可选的，以加法算子为例，加法算子具有左值、右值以及输出以上三个操作数，且三个操作数的形状均是相同的，例如各操作数的形状可以为[A,B]，当输出需要获取指定坐标[a,b]的计算结果时，需要根据左值的指定坐标[a,b]以及右值的指定坐标[a,b]进行计算，由此可看出，加法算子的访存映射关系是一一映射的，也即，当需要获取输出上某一坐标的值时，需要根据输入中同一坐标的值进行计算，相似的，减法、乘法、绝对值等算子也具有相同的访存映射关系，这些算子在自有算子语义体系中可归为一类算子。

在一个可选的例子中，自有语义算子体系中可预先规定elementwise类型的算子，在高级语义算子描述中的加法、减法、乘法、绝对值等具有相同访存映射关系的算子，可均属于自有语义算子体系中的elementwise类型的算子，当然，自有语义算子体系中还可以规定其他多种类型的算子，例如convolution算子等，此处仅作示例性说明，不进行具体限定。

这样设置的好处在于：通过依据访存映射关系对算子进行抽象，本发明提出的算子自动生成工具可以将上千种高级语义算子抽象成几十种自有语义算子，很大程度上减少了编写算子的工作量。

可选的，目标算子类型为自有算子语义体系中的一类自有语义算子，当目标算子的访存映射关系与目标算子类型相匹配时，则确定目标算子在自有算子语义体系中所属的算子类型为目标算子类型。

可选的，在自有算子语义体系中，每个自有语义算子中均定义其访存映射关系，自有语义算子的访存映射关系包括：所有循环迭代轴的属性信息、算子输入输出与循环之间的映射关系以及算子输入输出与循环步长之间的映射关系。

可选的，循环迭代轴属性可以为并行循环或缩减循环，取决于自有语义算子的类型，循环迭代轴的数量与输入输出的形状相关，续前述加法算子的例子，该加法算子各操作数的形状为[A,B]，则代表该加法算子为两维的加法，因此，该加法算子具有两个循环迭代轴，且每个循环迭代轴的类型为并行循环，在自有算子语义体系中可记为iteration：[parallel,parallel]。

可选的，并行循环可以指各坐标可以同时参与运算，例如A上的坐标（1,0）与（0,0）等多个点之间均无依赖关系，可分别参与运算，缩减循环可以指对输入循环迭代中的结果进行合并，将汇总结果置于输出中，缩减循环和输入操作数某个维度具有相关性，但和输出操作数无关。

可选的，对于高级语义算子描述中的第一算子与第二算子，若其属于同一自有语义算子，则访存映射关系相同，但访存映射关系中的参数可能不同，例如，二维的加法算子具有两个循环迭代轴，但一维的加法算子仅具有一个循环迭代轴，但各循环迭代轴属性均为并行循环。

可选的，算子输入输出与循环之间的映射关系可以指循环迭代轴上的坐标如何映射到操作数中，续前述加法算子的例子，具体说明算子输入输出与循环之间的映射关系，对于二维加法算子，已知其具有两个并行循环迭代轴，假设两个并行循环迭代轴分别为for i=0 to A以及for j=0 to B，且由于加法算子输入与输出之间是一一映射的，则i和j的位置即为各操作数的直接索引，此时，对于加法算子来说，左值、右值以及输出在循环迭代轴上的坐标可均为[i,j]，进而，左值在循环迭代轴上的输入为<i,j>时，输出也为<i,j>，右值、输出与循环之间的映射关系也相同，则算子输入输出与循环之间的映射关系在自有算子语义体系中可记为offsets:[affine_map<i,j>=><i,j>,affine_map<i,j>=><i,j>,affine_map<i,j>=><i,j>]。

可选的，考虑到这些算子在实际的底层运算中一般为分块运算，按点运算可能导致运算效率较低，因此，循环迭代轴中一般可以设定循环步长，例如，对于并行循环迭代轴for i=0 to A以及for j=0 to B，则循环步长可设定为for i=0 to A step size0以及forj=0 to B step size1，循环步长可以决定下次循环的递增量，可理解为，当本次循环操作数<i,j>时，下次循环i递增size0，j递增size1，也即<i:size0,j:size1>，算子输入输出与循环步长之间的映射关系在自有算子语义体系中可记为sizes:[affine_map<i,j>=><i,j>,affine_map<i,j>=><i,j>,affine_map<i,j>=><i,j>]，虽然输入输出与循环之间的映射关系以及输入输出与循环步长之间的映射关系在上文中表示形式几乎相同，但上文中仅是用于表示其输入输出之间的函数关系的字符串，在实际的算子运算过程中，不同的映射关系其输入是不同的。

可选的，自有语义算子的访存映射关系可以用于后续生成算子的具体实现，在生成算子实现的过程中，需要根据访存映射关系确定各级循环中输入输出以及循环的关系，访存映射关系一般与自有算子语义体系中的各自有语义算子相对应，作为各类自有语义算子的通用属性，例如，针对elementwise类型的算子，其循环迭代轴均为并行循环，映射关系均为一一映射，但具体的循环迭代轴数量、输入输出的数量、算子维度等信息仍需根据目标算子进行适应性改变，自有语义算子的访存映射关系可以写在目标算子的自有算子语义表达中，也可以通过目标算子的自有算子语义表达中指定函数进行调用。

可选的，自有算子语义表达可以相当于在自有算子语义体系下的算子描述，在自有算子语义体系下，可以直接获取与目标算子类型相对应的描述模板，进而根据高级语义算子描述，将算子的输入输出等必要参数填充至描述模板中，以获取自有算子语义表达。

可选的，自有算子语义表达中还可以包括访存映射关系或访存映射关系的调用函数、存储信息等其他信息，具体取决于技术人员的预先配置以及实际的硬件信息。

可选的，在自有语义算子表达中，输入输出均可以多维数据形式描述，也即张量形式。

这样设置的好处在于:在现有技术中，算子生成循环体均是基于标量数据进行描述的，映射到硬件上之后其存储、加载和核心计算等过程效率均较低，而采用张量形式进行描述，便于直接对数据块进行整体操作而不需要在存储、加载和核心计算时再进行标量到向量甚至是张量的向量化。对于张量数据的读和写可以映射到硬件上之后直接利用硬件的DMA（Direct Memory Access，存储器直接访问）或硬件特定数据搬运功能提高读、写数据的性能，对于张量数据的核心计算部分可以映射到硬件上之后直接利用硬件的向量指令或张量指令，提高计算效率以及代码性能。

S120、根据自有算子语义表达生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对初始函数进行优化处理。

可选的，在获取自有算子语义表达之后，可以根据自有算子语义表达中的信息生成函数形式的表达，相比于自有算子语义表达，初始函数相当于整体结构不变，但创建输入输出之间的函数关系。

可选的，选项集中包括多种与目标算子具有强关联关系的必要参数，例如切分参数、转置参数等，基于已生成的自有算子语义表达以及选项集，才可以获取算子数据搬运逻辑的完整信息。

可选的，选项集可以由AI编译器外部的性能调优工具直接提供，性能调优工具中的选项集可以由用户设置或根据数据库中的样本数据集以及启发式搜索算法预测出一个最佳的选项集参数，选项集还可以通过算子自动生成工具根据目标算子自动生成。

可选的，AI编译器所适配硬件可以为能够对算子进行运算的硬件，例如AI芯片等，硬件信息可以包括硬件能够处理的数据大小、存储约束、访存效率等多种信息，此处不进行限定。

可选的，对初始函数进行优化处理可以指对输入输出张量进行代数化简以及代数优化，且代数化简以及代数优化分别包括张量维度顺序调整和/或张量维度数量调整，具体进行哪些调整取决于目标算子类型、选项集以及硬件信息。

可选的，选项集中可以预先设置转置参数，转置参数可以用于表示各输入张量或输出张量是否需要进行转置，以及如何进行转置，例如，当目标算子的输入以及输出原本为[A,B,C,D]，在选项集中转置参数可以表示为tile-operand-permutation：0,1,3,2，0,1,3,2，则根据该转置参数可以对初始函数中输入输出张量进行代数化简中的张量维度顺序调整，调整后的输入以及输出为[A,B,D,C]。

可选的，选项集中的转置参数，也可以转换为一种输入与输出之间的访存映射关系，并存储在自有算子语义表达中。

可选的，根据目标算子类型，可以对输入输出张量进行张量维度数量调整，例如，当目标算子类型为elementwise算子时，可以将多维的输入输出张量转变为一维的输入输出张量，比如原本输入为[A,B]，则对其进行张量数量调整之后，可变为[A*B]，又例如，当目标算子类型为layer normalization算子时，可以将多维的输入输出张量转变为二维的输入输出张量，此处仅作示例性说明，不具体限定。

可选的，可以根据硬件信息确定硬件能够处理的数据大小，进而判断输入输出张量中是否存在需要进行代数优化的张量，例如，某个张量的维度为100万，但硬件无法同时处理这些数据，那么可以将张量进行数量调整，拆分为多个维度更低的张量。

可选的，对于某些需要最低维度对齐的硬件，需要通过对张量的数量进行调整，保证其在整个计算过程中的最低维度始终是对齐的，进而保证访问的正确性。

可以理解的是，从生成初始函数之后的各项操作，其实均是为了获取最终的算子实现，也即硬件能够执行的代码。

S130、根据选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与目标算子相对应的算子实现。

可选的，在获取优化处理后的初始函数之后，需要对其生成多级流水的循环多面体，以获取目标算子的第一算子实现；进而对第一算子实现进行数据搬运优化，以获取目标算子的第二算子实现；进而对第二算子实现进行并行优化处理，以获取第三算子实现；在第三算子实现中插入核心计算，生成最终的算子实现。

可选的，对优化处理后的初始函数生成多级流水的循环多面体，以及在第三算子实现中插入核心计算，生成最终的算子实现，属于代码插入操作，对第一算子实现进行数据搬运优化以及对第二算子实现进行并行优化处理，属于优化处理操作，通过对优化处理后的初始函数按顺序分别进行各项代码插入操作以及优化处理操作，能够有效保证算子实现的质量，提高编写效率。

可以理解的是，第一算子实现、第二算子实现以及第三算子为多级流水下的目标算子的代码形式，通过分级优化算子实现，能够有效提高算子性能，但硬件实际能够执行的代码为最终的算子实现。

本发明实施例的技术方案，通过根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，进而生成目标算子的自有算子语义表达，生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对初始函数进行优化处理，并根据选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与目标算子相对应的算子实现的方式，能够自动生成算子实现，并在生成算子实现的过程中进行多种优化，有效提高算子代码编写效率，并保证算子实现的质量，使得最终的算子实现能够适配于硬件，便于移植到不同硬件中，有效提高算子性能，保证各算子之间的一致性，便于维护，降低出错概率。

实施例二

图2为本发明实施例二提供的一种算子自动生成方法的流程图，本实施例在上述实施例的基础上，具体说明了算子自动生成方法。如图2所示，该方法包括：

S210、根据高级语义算子描述，确定目标算子的输入与输出之间的访存映射关系，并在自有算子语义体系中确定与访存映射关系相匹配的目标算子类型。

其中，所述自有算子语义中预先设置具有不同访存映射关系的多个算子类型。

S220、根据高级语义算子描述以及所述目标算子类型，生成目标算子的自有算子语义表达。

S230、根据自有算子语义表达生成初始函数，并根据选项集中的转置参数以及目标算子类型，对初始函数中各输入输出张量进行代数化简。

S240、根据硬件信息获取多项硬件约束，并根据硬件约束对代数化简后的各输入输出张量进行代数优化。

其中，所述代数化简以及所述代数优化包括张量维度顺序调整和/或张量维度数量调整。

S250、根据所述选项集中的切分参数、流水级数、存储位置以及优化处理后的初始函数，生成多级流水的循环多面体，并将循环多面体作为目标算子的第一算子实现。

可选的，生成多级流水的循环多面体操作可以相当于在优化后的初始函数中，生成for循环。

可选的，计算机芯片有多级存储结构，数据从设备端到内核寄存器，可能会进行多级数据搬运，每层存储器的容量不同，一般呈逐级递减趋势，越靠近内核，存储器容量越小并且访存速度越快，因此，存储与存储之间可能需要多次数据搬运才能发挥比较好的性能，对应到算子实现，从某级存储搬运到另一级存储，需要通过一级流水进行实现，例如，从L3级搬运到L1级存储，有两种搬运方式，一种是从L3级直接搬运到L1级，这样通过一级流水实现即可，另一种是从L3级先搬运到L2级，再从L2级搬运到L1级，此时则需要通过两级流水实现。

可选的，可以预先根据硬件信息中的硬件存储级数以及对运算的性能要求，确定流水级数以及每级流水搬运后的存储位置，并将流水级数以及存储位置保存在选项集中，以供生成第一算子实现时进行调用，根据所述流水级数以及存储位置，可确定在初始函数中插入几级流水，以及每级流水搬运后的存储位置。

可选的，可以根据选项集中的切分参数，确定每级流水的循环步长，并对循环体进行补充，生成多级流水的循环多面体可以相当于对函数中的核心计算进行多次切分以及搬运，使得算子被搬运到合适的存储位置，以保证运算性能。

可选的，在每一级流水中，需要通过自有算子语义表达中的访存映射关系，确定循环轴的个数以及循环轴属性，进而在每一级流水中生成至少一个for循环。

可选的，每一级流水下的for循环可构成本级流水下的循环多面体，在优化后的初始函数中生成各级流水的循环多面体之后，即可将插入循环多面体之后的初始函数作为第一算子实现。

S260、对第一算子实现进行数据搬运优化，并将数据搬运优化后的算子实现作为第二算子实现。

其中，对所述第一算子实现进行数据搬运优化，可以包括下述至少一项：

对所述第一算子实现中循环多面体的数据访问顺序进行重新排布，实现数据重排优化；

在确定循环多面体中的目标循环体的循环次数为1时，将目标循环体内的各循环变量转换为常量，并将目标循环体内的各语句提取到目标循环体外侧，实现对于目标循环体的循环消除；

在循环多面体中，确定与循环不相关的各目标数据，并将各目标数据提取到循环外侧，实现循环不变量外提优化；

对所述循环多面体中待处理的数据设置双缓存机制，以供缓存中预先分配的多块缓存区能够对待处理的数据分别执行不同操作，实现双缓存优化。

可选的，通过对循环多面体的数据访问顺序进行重新排布，可以使得数据访问模式更加连续，从而提高内存带宽利用率。

可选的，将目标循环体内的各循环变量转换为常量也可理解为将for循环中的内容外提，消除for循环，通过将循环次数为1次的目标循环体的循环变量转换为常量并进行外提的方式，可以有效提高程序的执行效率和性能。

可选的，通过将与循环无关的数据搬运外提到循环外层，可以避免重复的数据搬运，使得数据可以常驻在存储中，减小对DMA资源的消耗，提高数据利用率，并且，虽然现有的部分工具也能提供循环不变量外提优化，但并不能对操作内存的DMA进行循环不变量外提，例如，对于 convolution 算子，其在每个循环体中均包含左值循环以及右值循环，在算子实现生成的过程中，左值的数据搬运和右值的数据搬运可能会写在多个for循环下，而针对于右值搬运的 output channel for循环来说，其无需对左值进行搬运，此时，可将左值的数据搬运外提到该循环外侧，此处仅作示例性说明，不进行具体限制。

可选的，双缓存机制可以指对于需要处理的数据，在缓存中分配两块缓存区，一块缓存区用于当前数据的核心计算，另一块缓存区可以同时进行数据预加载操作，交替使用两块缓存区，可以将计算和数据传输等操作进行重叠，从而减少等待时间，提高整体效率，例如，对于算子实现中的某个循环体，若不使用双缓存机制，该循环体下的各项任务需要按序执行，但若采用双缓存机制，需要初始化两个缓存区，一个用于当前循环所需的数据，另一个用于下一次循环所需的数据，在循环开始之前预先加载第一次循环所需的数据到缓存区中，在循环体内部，首先使用当前缓存区中的数据执行当前循环的计算或操作，同时从数据源加载下一次循环所需的数据到另一个缓存区中，在当前循环执行完毕时，切换缓存区，并重复上述步骤。

这样设置的好处在于：可以使处理单元在当前循环执行期间不会因为等待数据而空闲，而是可以立即开始处理下一次循环所需的数据，进而可以充分利用处理单元的计算资源，提高处理效率。

可选的，可以对第一算子实现进行分析，确定第一算子实现中需要进行的数据搬运优化类型，从而确定具体的数据搬运优化内容，例如，对于简单的加法算子，其是一一映射关系，变量均与循环相关，可能不存在循环不变量，此时则无需进行循环不变量外提优化。

S270、根据选项集中的并行化参数，将第二算子实现中的各多维循环迭代空间划分成多个迭代子空间，并将各迭代子空间分别分配至相匹配的处理单元中，建立各处理单元之间的通信机制，生成第三算子实现。

可选的，选项集中提供的并行化参数可以包括硬件的并行度大小以及指定的并行运行循环体，其中，硬件的并行度大小可以指用于计算的内核数，例如4核、8核等，指定的并行运行循环体可以指在具体哪个或哪几个循环体上实现并行。

可选的，根据指定的并行运行循环体，可以在第二算子实现中确定待划分的目标循环体，并将目标循环体内的多维迭代空间划分成多个迭代子空间，迭代子空间的划分可以为均匀划分，也可以根据硬件的特性和优化的需要进行灵活的划分，也可理解为，将循环迭代空间划分为多个子任务，并基于硬件的并行度、任务调度关系、负载均衡等因素，将各个迭代子空间分配至各处理单元中，处理单元即指用于计算的内核。

可选的，在并行执行过程中，可能会涉及到数据通信和同步操作，以保证并行计算的正确性和一致性，因此，可以在分配完成之后，建立各处理单元之间的通信机制，从而确保多个处理单元之间的数据一致性。

S280、根据第三算子实现获取核心计算代码，并将核心计算代码插入第三算子实现中，生成与目标算子相对应的算子实现。

其中，根据第三算子实现获取核心计算代码，可以包括下述至少一项：

根据第三算子实现中的核心计算标识，基于预先生成的封装向量指令集自动生成核心计算代码；

根据第三算子实现中的核心计算标识，在预先封装的独立函数或代码段中调用与所述核心计算标识相匹配的核心计算代码。

可选的，在第三算子实现之间，仅涉及到数据的搬运等操作，并不涉及算子的核心计算，根据第三算子实现虽然可以确定目标算子的具体类型，但无法映射到具体的计算指令，在生成第三算子实现之后，需要对核心计算进行感知，根据核心计算标识，可以确定需要的核心计算代码内容，进而可以根据预先生成的封装向量指令集或独立函数、代码段等，确定相匹配的核心计算代码内容，进而将核心计算代码插入至第三算子实现中。

可选的，核心计算代码可以用于描述算子如何调用硬件指令进行计算，一般的，核心计算可以通过将计算任务以特定寄存器大小为单位划分为多个张量进行操作，因此，在确定核心计算时，还可以同时考虑硬件信息中的寄存器数量以及各寄存器的大小，从而确定相匹配的核心计算代码。

进一步的，还可以包括：

将与所述目标算子相对应的算子实现发送到硬件执行，并获取硬件反馈的算子性能信息；

根据所述算子性能信息生成优化策略并更新所述选项集，并将更新后的选项集加载至所述算子生成工具中，以在下一次算子实现生成时进行调用。

可选的，在硬件执行之后，可以获取硬件反馈的各类任务的运算速度、等待时间以及各内核的使用率等多项算子性能信息，并根据算子性能信息确定对选项集的优化策略，适应性的调整选项集中的各参数，进而在后续生成目标算子的算子实现时，调用更新后的选项集，从而提高后续生成算子实现的性能。

实施例三

图3为本发明实施例三提供的一种算子自动生成装置的结构示意图。如图3所示，该装置包括：自有算子语义表达生成模块310、自有算子语义表达优化模块320以及算子实现生成模块330。

自有算子语义表达生成模块310，用于根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，并根据所述高级语义算子描述以及所述目标算子类型，生成目标算子的自有算子语义表达。

自有算子语义表达优化模块320，用于根据所述自有算子语义表达生成初始函数，并根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对所述初始函数进行优化处理。

算子实现生成模块330，用于根据所述选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现。

在上述各实施例的基础上，自有算子语义表达生成模块310，可以具体用于：

根据所述高级语义算子描述，确定目标算子的输入与输出之间的访存映射关系，并在自有算子语义体系中确定与所述访存映射关系相匹配的目标算子类型；其中，所述自有算子语义中预先设置具有不同访存映射关系的多个算子类型。

在上述各实施例的基础上，自有算子语义表达优化模块320，可以具体用于：

根据所述选项集中的转置参数以及所述目标算子类型，对自有算子语义表达中各输入输出张量进行代数化简；

根据所述硬件信息获取多项硬件约束，并根据所述硬件约束对代数化简后的各输入输出张量进行代数优化；

在上述各实施例的基础上，算子实现生成模块330，可以包括：

第一算子实现生成单元，用于根据所述选项集中的切分参数、流水级数、存储位置以及优化处理后的初始函数，在优化处理后的初始函数中生成多级流水的循环多面体，作为目标算子的第一算子实现；

第二算子实现生成单元，用于对所述第一算子实现进行数据搬运优化，并将数据搬运优化后的算子实现作为第二算子实现；

第三算子实现生成单元，用于根据所述选项集中的并行化参数，将所述第二算子实现中的各多维循环迭代空间划分成多个迭代子空间，并将各迭代子空间分别分配至相匹配的处理单元中，建立各处理单元之间的通信机制，生成第三算子实现；

核心计算代码插入单元，用于根据第三算子实现获取核心计算代码，并将核心计算代码插入第三算子实现中，生成与目标算子相对应的算子实现。

在上述各实施例的基础上，第二算子实现生成单元，可以用于执行下述至少一项：

在上述各实施例的基础上，核心计算代码插入单元，可以用于执行下述至少一项：

在上述各实施例的基础上，还可以包括算子性能信息反馈模块，具体用于：

本发明实施例所提供的算子自动生成装置可执行本发明任意实施例所提供的算子自动生成方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如如本发明实施例所述的算子自动生成方法。也即：

在一些实施例中，算子自动生成方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的算子自动生成方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行算子自动生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种算子自动生成方法，其特征在于，由在人工智能AI编译器中预先加载的算子自动生成工具执行，包括：

根据所述自有算子语义表达生成初始函数，并根据预先获取的选项集中第一参数以及AI编译器所适配硬件的硬件信息，对所述初始函数进行优化处理；所述第一参数包括转置参数；

根据所述选项集中第二参数，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现；所述第二参数包括切分参数、流水级数、存储位置以及并行化参数；所述代码插入是指核心计算代码插入；

其中，根据目标算子的高级语义算子描述，确定目标算子在自有算子语义体系中所属的目标算子类型，包括：

2.根据权利要求1所述的方法，其特征在于，根据预先获取的选项集以及AI编译器所适配硬件的硬件信息，对所述初始函数进行优化处理，包括：

根据所述选项集中的转置参数以及所述目标算子类型，对初始函数中各输入输出张量进行代数化简；

3.根据权利要求1所述的方法，其特征在于，根据所述选项集，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现，包括：

根据所述选项集中的切分参数、流水级数、存储位置以及优化处理后的初始函数，在优化处理后的初始函数中生成多级流水的循环多面体，作为目标算子的第一算子实现；

对所述第一算子实现进行数据搬运优化，并将数据搬运优化后的算子实现作为第二算子实现；

根据所述选项集中的并行化参数，将所述第二算子实现中的各多维循环迭代空间划分成多个迭代子空间，并将各迭代子空间分别分配至相匹配的处理单元中，建立各处理单元之间的通信机制，生成第三算子实现；

根据第三算子实现获取核心计算代码，并将核心计算代码插入第三算子实现中，生成与目标算子相对应的算子实现。

4.根据权利要求3所述的方法，其特征在于，对所述第一算子实现进行数据搬运优化，包括下述至少一项：

5.根据权利要求3所述的方法，其特征在于，根据第三算子实现获取核心计算代码，包括下述至少一项：

6.根据权利要求1所述的方法，其特征在于，还包括：

根据所述算子性能信息生成优化策略并更新所述选项集，并将更新后的选项集加载至算子生成工具中，以在下一次算子实现生成时进行调用。

7.一种算子自动生成装置，其特征在于，由在AI编译器中预先加载的算子自动生成工具执行，包括：

自有算子语义表达优化模块，用于根据所述自有算子语义表达生成初始函数，并根据预先获取的选项集中第一参数以及AI编译器所适配硬件的硬件信息，对所述初始函数进行优化处理；所述第一参数包括转置参数；

算子实现生成模块，用于根据所述选项集中第二参数，对优化处理后的初始函数进行多次代码插入以及优化处理，生成与所述目标算子相对应的算子实现；所述第二参数包括切分参数、流水级数、存储位置以及并行化参数；所述代码插入是指核心计算代码插入；

其中，自有算子语义表达生成模块，用于：

8. 一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明权利要求1-6中任一项所述的算子自动生成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的算子自动生成方法。