CN113342346B

CN113342346B - 深度学习框架的算子注册方法、装置、设备和存储介质

Info

Publication number: CN113342346B
Application number: CN202110540476.4A
Authority: CN
Inventors: 陈威行; 杨嘉彬; 刘红雨; 蓝翔
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-03-25
Anticipated expiration: 2041-05-18
Also published as: CN113342346A; JP2022177793A; US11625248B2; JP7350923B2; US20220374238A1

Abstract

本公开提供了一种深度学习框架的算子注册方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及深度学习等人工智能领域。深度学习框架的算子注册方法包括：接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关；基于所述注册信息，创建所述深度学习框架中的算子元信息；基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。本公开可以简化算子注册流程。

Description

深度学习框架的算子注册方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及深度学习等人工智能领域，尤其涉及一种深度学习框架的算子注册方法、装置、设备和存储介质。

背景技术

深度学习框架作为人工智能领域的基础性框架，逐渐受到越来越多的关注，其重要的指标之一是框架的可扩展性，自定义算子是实现可扩展性的一种主要途径。

相关技术中，为了实现用户自定义算子并应用到深度学习框架中，一般需要用户理解深度学习框架的内部概念、继承内部类，甚至还需要编译整个深度学习框架。

发明内容

本公开提供了一种深度学习框架的算子注册方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种深度学习框架的算子注册方法，包括：接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关；基于所述注册信息，创建所述深度学习框架中的算子元信息；基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

根据本公开的另一方面，提供了一种深度学习框架的算子注册装置，包括：接收模块，用于接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关；创建模块，用于基于所述注册信息，创建所述深度学习框架中的算子元信息；注册模块，用于基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以简化算子注册流程。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是用来实现本公开实施例的深度学习框架的算子注册方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

算子(operator)是深度学习框架(可简称为框架)中的基本计算单元，其输入包括张量(tensor)或张量组合，通过对张量或张量组合进行计算，完成特定的功能，比如卷积算子、池化算子、relu算子等。深度学习框架中，使用tensor来表示数据，tensor可以理解为多维数组。使用深度学习框架搭建模型的过程也是组合不同算子以满足特定计算目标的过程，而算子的丰富程度也是衡量深度学习框架产品功能完备性的重要指标。一些特定领域需要许多定制的、非通用的、也非基础算子可组合出的算子，例如3D视觉、光流等领域的模型，此时便需要使用框架的自定义算子功能，对框架进行扩展开发，从而使框架能够在特定领域使用。

如果编写深度学习框架自定义算子写法过于复杂，需要理解的概念过多，会让很多用户难以编写出可用的自定义算子，因此，对于一个深度学习框架产品来讲，提供一种简洁的自定义算子的处理方案是极为重要的。

为了将自定义算子应用到深度学习框架中，一般要完成以下几个步骤：

(1)算子计算逻辑实现。该步骤中要使用C++完成算子的核心计算逻辑编写。在该部分的实现中，是否需要理解张量无关的框架内部的数据结构是简洁性的关键；

(2)将算子关联到框架中。该步骤要将算子的计算逻辑以某种方式注册或关联到框架中，从而能够被框架调用。这同样要求比较直观的编写方式，不引入不易理解的概念；

(3)编译算子并在模型中使用。该步骤要完成算子的编译，从而应用于实际场景。是否需要联合编译整个框架是衡量该步骤简洁性的重要指标之一，用户独立编译自己编写的算子，与需要下载完整的框架代码，联合整个框架进行编译，在便利性上有明显差距。

相关技术中，各深度学习框架产品都有自己的自定义算子编写方案，但在方案易用性上参差不齐，并且都引入了一些框架内的概念，增加了用户的理解成本。简介如下：

(1)PyTorch方案：编写以张量为输入，返回张量列表的计算函数，使用Pybind11模块封装为Python接口，独立编译，然后继承其框架内部的Function，实现forward和backward方法，使用context关联前反向执行逻辑。

(2)TensorFlow方案：与其编写内部算子的写法基本一致，继承框架底层的OpKernel，实现框架指定的Compute方案，使用框架底层的OpKernelContext管理输入输出，使用框架底层的多个注册接口完成注册，支持独立编译。

(3)MindSpore方案：与其内部算子的编写方法完全一致，需要理解并继承PrimitiveWithInfer，GPUKernel等框架底层概念，实现框架指定的Init，Launch等方法，按照特定的写法完成注册，并且必须和完整的框架源码一起编译。

(4)Jittor方案：需要理解并继承框架底层的CustomOp，实现框架指定的jit_prepare和jit_run等方法，并将算子实现封装到字符串中，即时编译后使用。

为了更直观比对相关技术和本公开，相关技术和本公开的对比可以如表1所示。

表1

依赖项	PyTorch	Tensorflow	MindSpore	Jittor	本公开
						必须编写计算函数	是	是	是	是	是
必须理解内部概念	是	是	是	是
						必须继承内部类	是	是	是	是
必须编译整个框架			是

表1示出了相关技术与本公开在各依赖项的对比，依赖项越少，方案越简洁，本公开着眼于算子计算的本质，大大简化了自定义算子的注册处理方案，或者说简化了自定义算子的编程范式。

本公开的具体实现方案可以参见下面的实施例。

图1是根据本公开第一实施例的示意图。该实施例提供一种深度学习框架的算子注册方法，包括：

101、接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关。

102、基于所述注册信息，创建所述深度学习框架中的算子元信息。

103、基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

本实施例提供的处理方法的执行主体可以为深度学习框架，如图2所示，深度学习框架可以分为用户端和内部端。在用户端中，可以包括信息输入模块201，用户可以通过信息输入模块201输入上述的注册信息。具体地，深度学习框架可以预先设计一个注册接口，将该注册接口作为信息输入模块，以实现注册信息的输入。注册接口可以是用宏、静态对象或方法等实现。

注册信息包括：自定义计算函数，进一步地，注册信息还可以包括：自定义输入信息和自定义输出信息。自定义输入信息和自定义输出信息分别是指自定义算子的输入变量的信息以及自定义算子的输出变量的信息，信息比如为变量名。以自定义输入信息为例，自定义输入信息比如为用户自己命名的输入变量的名字，更为具体地，比如，一个输入变量为张量，可以将其命名为tensor1。由于注册信息包括的是自定义的信息，可以理解为自定义算子的注册信息。

算子是深度学习框架中的基本计算单元，其包括计算函数，更为具体地，一个算子可以包括正向计算函数(ForwardFunction)和反向计算函数(BackwardFunction)。

自定义算子中，用户是自己编写的计算函数，即自定义计算函数。

自定义计算函数与深度学习框架不相关是指，用户不需要理解深度学习框架的内部概念，也不需要继承深度学习框架的内部类，用户可以以简洁、灵活、直观的方式进行计算函数的编写。

计算函数的简洁、灵活、直观体现在以下几个方面：

(1)不限制函数命名，也不要求用户实现指定函数，用户按照自己的意愿为自己函数命名即可；

(2)不限制函数参数的个数，用户可以根据实际的计算需求，以一个或多个Tensor，vector<Tensor>，以及int,float，double等类型的参数作为输入，十分灵活；

(3)函数返回值为变长Tensor列表，用户可以根据实际的计算需求，返回一个或多个Tensor；

(4)用户仅需要了解一个算子计算逻辑所必须的基础概念，包括基础数据类型Tensor，数据类型和设备类型，其他框架底层的概念一概不需要了解，学习与理解成本很低。

综合以上特征，自定义算子的计算函数的一种编写方式可以为：

返回Tensor列表算子计算函数名(输入Tensor1，输入Tensor2...){

算子计算逻辑...

返回计算结果

}

对于自定义算子，一般会编写该自定义算子的前向计算函数(Forward Function)和反向计算函数(BackwardFunction)，两者均可以使用上述直观的、符合编程习惯的、简洁的实现方式。

在这样的编程范式设计下，用户只需要关注输入的Tensor(张量)与返回的Tensor，以及相关的运算逻辑实现，不需要关注框架内部的无关概念，例如前述方案中的OpKernelContext，CustomOp，OpKernel等等。这符合一般的编程习惯，在写法理解上成本很低。

通过用户编写的与深度学习框架不相关的自定义计算函数，可以实现用户对自定义算子的计算函数的简洁、灵活、直观的编写，进而可以简化算子注册流程。

在接收到用户输入的注册信息后，可以基于注册信息生成算子元信息(OpMetaInfo)。如图2所示，在用户端中，还可以包括创建模块202，创建模块202用于基于注册信息创建自定义算子对应的算子元信息(OpMetaInfo)，进一步地，每个自定义算子对应一条算子元信息，多个自定义算子对应多条算子元信息，多条算子元信息可以组成算子元信息表(OpMetaInfoMap)。

具体地，可以采用创建器(builder)，基于注册信息创建算子元信息。创建器比如可以采用宏等方式。

一些实施例中，基于所述注册信息，创建所述深度学习框架中的算子元信息可以包括：将所述自定义输入信息转换为所述深度学习框架内部的标准输入信息；将所述自定义输出信息转换为所述深度学习框架内部的标准输出信息；采用宏对所述自定义计算函数进行处理，以获得宏处理后的计算函数；基于所述标准输入信息、所述标准输出信息和所述宏处理后的计算函数，创建所述深度学习框架中的算子元信息。

以输入信息或输出信息为变量名为例，可以将自定义输入变量名转换为标准输入变量名，将自定义输出变量名转换为标准输出变量名。以输入为例，深度学习框架中可以预先配置自定义输入变量名与标准输入变量名之间的映射关系，以通过该映射关系，将自定义输入变量名转换为标准输入变量名，比如自定义输入变量名为输入tensor1，经过预先配置的映射关系的处理，可以将其转换为标准输入变量名X。可以理解的是，映射关系不限于一个具体名字与另一个具体名字之间的一一对应关系，还可以是一种计算关系或处理关系，以将自定义变量名转换为符合深度学习框架内部的标准变量名，变量名包括输入变量名和输出变量名。

采用宏对自定义计算函数进行处理，可以是指用宏包裹自定义计算函数。比如，自定义计算函数为ReluCPUForward，宏为PD_KERNEL，则宏处理后的计算函数可以表示为PD_KERNEL(ReluCPUForward)。

在计算机领域，宏是一种替换处理，可以通过定义的替换关系，实现对应的替换处理。比如，通过定义的替换关系，将上述的宏处理后的计算函数PD_KERNEL(ReluCPUForward)替换为某一设定的结构体KernelFuncImpl中包含的计算函数compute。

基于上述定义的替换关系，在对自定义函数进行编译时，会替换为对KernelFuncImpl的Compute函数进行处理。

创建的算子元信息可以包括：标准输入信息、标准输出信息，以及宏处理后的计算函数的函数指针。

通过上述转换以及宏处理，可以高效地创建自定义算子对应的算子元信息。

一些实施例中，所述待注册算子包括待注册算子描述信息和待注册算子核函数，所述基于所述算子元信息，构造深度学习框架内部的待注册算子，包括：基于所述标准输入信息和所述标准输出信息，构造所述待注册算子描述信息；基于所述宏处理后的计算函数，构造所述待注册算子核函数。

如图2所示，在内部端，可以包括用户算子构造模块203，用于基于算子元信息构造对应的深度学习框架内的待注册算子，并注册到深度学习框架内部的全局算子表中。为了与深度学习框架内部本身存在的算子进行区分，用户编写的自定义算子对应的待注册算子可以称为用户算子(CustomOp)。可以理解的是，用户算子是符合深度学习框架的标准算子，可以在深度学习框架内部进行统一调度。

深度学习框架中，算子可以包括两个部分，一部分为描述信息，另一部分为核函数，描述信息比如包括输入信息、输出信息等，核函数用于描述算子的主要计算逻辑。

待注册算子描述信息可以包括：标准输入信息和标准输出信息。

待注册算子核函数可以基于宏处理后的计算函数构造。

通过基于宏处理后的计算函数构造所述待注册算子核函数，可以实现自定义计算函数与标准计算函数的关联，以便对自定义算子应用到深度学习框架内。

在深度学习框架内部，为了实现统一调度，深度学习框架内部的算子对应的函数写法是统一的，并且该统一的写法与用户的自定义算子的计算函数的编写方式存在较大差异。

具体地，在不同的场景下，不同用户的计算函数的写法可能是不同的，例如一个张量作为输入的时候，函数写法是：

返回Tensor列表算子计算函数名(输入Tensor1){...}

而如果有两个输入张量，函数写法是：

返回Tensor列表算子计算函数名(输入Tensor1，输入Tensor2){...}

当有更多的输入时，也会有更多的函数写法。在C++编程语言中，不同的函数写法意味着不同的函数指针类型，也就是不同的数据类型，而框架需要存储用户可能编写的函数指针类型，并在框架底层调用，这种写法灵活性极强的范式，在C++编程语言中是无法以简洁通用的形式存储下来。为了实现整体的简洁，还需要对用户编写的各种各样的计算函数进行统一。

比如，一个自定义计算函数的函数形式为：

返回Tensor列表算子计算函数名(输入Tensor1){...}

另一个自定义计算函数的函数形式为：

返回Tensor列表算子计算函数名(输入Tensor1，输入Tensor2){...}

上述两个自定义计算函数的函数形式是不统一的，本实施例中，需要对不同的自定义计算函数进行统一，以方便在深度学习框架内部进行统一调度。

统一后的函数，即具有统一形式的函数的函数形式可以为：

返回Tensor列表算子计算函数名(输入Tensor列表){...}

一些实施例中，所述待注册算子核函数中包括统一形式的输入信息和统一的函数指针，所述基于所述宏处理后的计算函数，构造所述待注册算子核函数，包括：确定用于替换所述宏处理后的计算函数的结构体，所述结构体包含静态函数，所述静态函数对应不同的自定义计算函数具有统一的形式；将所述静态函数的输入信息作为所述统一形式的输入信息；将所述静态函数的函数指针作为所述统一的函数指针。

比如，一般的框架内的算子都需要继承OpKernel类，并填充实现自己的计算(Compute)函数，而对应的输入输出张量都在context中，需要通过context的Input，Output方法来获取，这与前述直观的自定义计算函数的编程范式存在本质的区别，因此需要对两者进行关联。

本实施例中，在构造待注册算子核函数时，将基于统一形式的函数进行构造，该统一形式的函数可以为预先定义的结构体中的静态函数。

具体地，本实施例构造待注册算子核函数时，可以包括：创建上述静态函数的输入信息、创建上述的静态函数的函数指针，以及创建其他一些标准处理，比如，从context中获取输入信息并放入inputs变量中。

在本实施例中，在构造的待注册算子核函数时，将包括上述的三个创建过程。

通过构造待注册算子核函数时采用具有统一形式的静态函数，可以对自定义计算函数进行统一，以便深度学习框架的统一调度。

具有统一形式的静态函数的输入可以为输入变量列表，进一步地，输入变量列表可以包括输入张量列表和属性列表，属性列表用于存储其他数据类型的输入变量。比如，自定义计算函数的输入变量的数据类型包括张量型(tensor)、整数型(int)、浮点型(float)，表示为：tensor1、tensor2、int、float，则静态函数的输入变量列表可以包括张量列表(tensor1、tensor2)以及属性列表(int、float)。

输入变量列表可以采用C++的模板参数推导机制获得。

一些实施例中，所述静态函数的输入信息组成输入信息列表，所述输入信息列表包括输入张量列表，所述自定义输入信息包括至少一种数据类型的自定义输入信息，所述结构体包括至少一个特化子结构体，不同的特化子结构体对应不同的数据类型，所述数据类型包括张量，所述基于所述宏处理后的计算函数，构建所述待注册算子核函数，还包括：采用所述至少一个特化子结构体中的各个特化子结构体，获得与所述各个特化子结构体对应的数据类型的自定义输入信息；将数据类型为张量的自定义输入信息组成所述输入张量列表；若所述数据类型还包括非张量，所述输入信息列表还包括其他数据类型列表，将数据类型为非张量的自定义输入信息组成所述其他数据类型列表。

具体地，编译自定义算子时，基于定义宏的替换关系，可以确定用于替换所述宏处理后的计算函数的结构体(struct)，基于上述示例，宏处理后的计算函数为PD_KERNEL(ReluCPUForward)，用于替换该函数的结构体为KernelFuncImpl，该结构体中的静态函数为Compute。在实际应用时，会返回该静态函数Compute的指针，进一步地，该结构体KernelFuncImpl中还可以包括多个特化子结构体，子结构体是指上述的结构体KernelFuncImpl中包括的结构体，特化子结构体是指某个或某些参数具体化的结构体。在本实施例中，不同的特化子结构体对应不同的数据类型，比如，某个特化子结构体的第一个模板参数具体化为张量类型，则该特化子结构体对应的数据类型为张量，可以解析出自定义计算函数中数据类型为张量的输入变量。基于特化子结构体，通过静态函数Compute的指针可以调用静态函数Compute，该静态函数Compute的返回结果为该多个特化子结构体中的各个特化子结构体中的静态函数的函数指针，特定子结构体中的静态函数比如用ComputeCallHelper1，ComputeCallHelper2...表示，则通过调用静态函数Compute，可以返回ComputeCallHelper1的函数指针，ComputeCallHelper2的函数指针等，再基于函数指针可以调用对应的特化子结构体中的静态函数，比如，基于ComputeCallHelper1的函数指针调用ComputeCallHelper1。各个特化子结构体中的静态函数用于解析对应数据类型的输入变量，并构造对应数据类型的输入变量列表。比如，ComputeCallHelper1对应的数据类型为张量(tensor)，自定义计算函数的输入变量包括tensor1和tensor2，则通过ComputeCallHelper1的执行，可以获取输入张量列表(tensor1，tensor2)。

在具体实现时，如图3所示，可以采用不同的特化子结构体逐一对自定义计算函数的输入变量进行匹配的方式，获取对应数据类型的输入变量并组成对应的输入变量列表。另外，还可以包括一种特殊的特化子结构体，用于标识匹配结束。进一步地，采用特化子结构体解析自定义计算函数的输入变量时，可以采用C++的模板推导机制。

通过预定义的结构体可以实现对自定义计算函数的输入变量的解析。

一些实施例中，可以基于当前场景，确定与所述当前场景对应的当前构造函数；采用所述当前构造函数，基于所述算子元信息，构造深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

如图4所示，构造函数可以为两种，分别用loadOpMetaInfoAndRegister()(简写为load)和RegisterOperatorWithMetaInfoMap()(简写为register)表示。

可以根据当前场景选择当前构造函数，比如，当前场景为训练，选择的当前构造函数为load，当前场景为训练，选择的当前构造函数为register。load是指先编译生成动态库文件，生成动态库文件后退出，之后再启动时加载该动态库，完成注册，生成和注册是两个过程；register是生成和注册是一个过程。另外，图4中的CustomOp和CustomOpKernel是指自定义算子对应的待注册算子的两个类，分别用于存储待注册算子描述信息和待注册算子核函数，OpInfoMap和AllOpKernels()是全局算子表，分别用于存储全局的算子描述信息和算子核函数。

具体地，用户输入的注册信息可以存储在OpMetaInfo中，多条OpMetaInfo可以组成OpMetaInfoMap。用户在编译自定义算子时，可以通过调用load函数或者register函数，构建自定义算子对应的待注册算子，以及注册到全局算子表中。之后可以基于深度学习框架的统一调度方式进行调度。对于训练，用户可以使用python接口调用，深度学习框架在生成Python接口时，可以将load函数的调用封装在了Python接口中，所以用户使用Python接口时会自动调用；对于推理，推理程序启动的时候，会进行一次全局调用，从而可以调用register函数。

通过不同的场景采用不同的构造函数，可以实现更灵活。

本公开实施例中，通过上述处理，有效降低了深度学习框架自定义算子的编码复杂度，降低了框架二次开发的成本，提升了框架的易用性，有利于其他专业领域通过该方法便利地扩展专用算子，并在领域内使用深度学习框架进行AI研究，例如量子计算，生物计算等领域，这在构建深度学习框架生态方面有长远的积极影响，并提升竞争力。

图5是根据本公开第五实施例的示意图，本实施例提供一种深度学习框架的算子注册装置。如图5所示，算子注册装置500包括：接收模块501、创建模块502和注册模块503。

接收模块501用于接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关；创建模块502用于基于所述注册信息，创建所述深度学习框架中的算子元信息；注册模块503用于基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

一些实施例中，所述注册信息还包括：自定义输入信息和自定义输出信息，所述创建模块502具体用于：将所述自定义输入信息转换为所述深度学习框架内部的标准输入信息；将所述自定义输出信息转换为所述深度学习框架内部的标准输出信息；采用宏对所述自定义计算函数进行处理，以获得宏处理后的计算函数；基于所述标准输入信息、所述标准输出信息和所述宏处理后的计算函数，创建所述深度学习框架中的算子元信息。

一些实施例中，所述待注册算子包括待注册算子描述信息和待注册算子核函数，所述注册模块503具体用于：基于所述标准输入信息和所述标准输出信息，构造所述待注册算子描述信息；基于所述宏处理后的计算函数，构造所述待注册算子核函数。

一些实施例中，所述待注册算子核函数中包括统一形式的输入信息和统一的函数指针，所述注册模块503进一步具体用于：确定用于替换所述宏处理后的计算函数的结构体，所述结构体包含静态函数，所述静态函数对应不同的自定义计算函数具有统一的形式；将所述静态函数的输入信息作为所述统一形式的输入信息；将所述静态函数的函数指针作为所述统一的函数指针。

一些实施例中，所述静态函数的输入信息组成输入信息列表，所述输入信息列表包括输入张量列表，所述自定义输入信息包括至少一种数据类型的自定义输入信息，所述结构体包括至少一个特化子结构体，不同的特化子结构体对应不同的数据类型，所述数据类型包括张量，所述注册模块还用于：采用所述至少一个特化子结构体中的各个特化子结构体，获得与所述各个特化子结构体对应的数据类型的自定义输入信息；将数据类型为张量的自定义输入信息组成所述输入张量列表；若所述数据类型还包括非张量，所述输入信息列表还包括其他数据类型列表，将数据类型为非张量的自定义输入信息组成所述其他数据类型列表。

一些实施例中，所述注册模块503具体用于：基于当前场景，确定与所述当前场景对应的当前构造函数；采用所述当前构造函数，基于所述算子元信息，构造深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元606加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如深度学习框架的算子注册方法。例如，在一些实施例中，深度学习框架的算子注册方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的深度学习框架的算子注册方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习框架的算子注册方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("VirtualPrivateServer"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习框架的算子注册方法，包括：

接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关，所述不相关包括：所述自定义计算函数的函数命名与所述深度学习框架不相关、所述自定义计算函数的函数参数的个数与所述深度学习框架不相关、所述自定义计算函数的函数返回值为变长张量列表，以及，所述自定义计算函数的算子计算逻辑与所述深度学习框架不相关；

基于所述注册信息，创建所述深度学习框架中的算子元信息；

基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

2.根据权利要求1所述的方法，其中，所述注册信息还包括：自定义输入信息和自定义输出信息，所述基于所述注册信息，创建所述深度学习框架中的算子元信息，包括：

将所述自定义输入信息转换为所述深度学习框架内部的标准输入信息；

将所述自定义输出信息转换为所述深度学习框架内部的标准输出信息；

采用宏对所述自定义计算函数进行处理，以获得宏处理后的计算函数；

基于所述标准输入信息、所述标准输出信息和所述宏处理后的计算函数，创建所述深度学习框架中的算子元信息。

3.根据权利要求2所述的方法，其中，所述待注册算子包括待注册算子描述信息和待注册算子核函数，所述基于所述算子元信息，构造所述深度学习框架内部的待注册算子，包括：

基于所述标准输入信息和所述标准输出信息，构造所述待注册算子描述信息；

基于所述宏处理后的计算函数，构造所述待注册算子核函数。

4.根据权利要求3所述的方法，其中，所述待注册算子核函数中包括统一形式的输入信息和统一的函数指针，所述基于所述宏处理后的计算函数，构造所述待注册算子核函数，包括：

确定用于替换所述宏处理后的计算函数的结构体，所述结构体包含静态函数，所述静态函数对应不同的自定义计算函数具有统一的形式；

将所述静态函数的输入信息作为所述统一形式的输入信息；

将所述静态函数的函数指针作为所述统一的函数指针。

5.根据权利要求4所述的方法，其中，所述静态函数的输入信息组成输入信息列表，所述输入信息列表包括输入张量列表，所述自定义输入信息包括至少一种数据类型的自定义输入信息，所述结构体包括至少一个特化子结构体，不同的特化子结构体对应不同的数据类型，所述数据类型包括张量，所述基于所述宏处理后的计算函数，构造所述待注册算子核函数，还包括：

采用所述至少一个特化子结构体中的各个特化子结构体，获得与所述各个特化子结构体对应的数据类型的自定义输入信息；

将数据类型为张量的自定义输入信息组成所述输入张量列表；

若所述数据类型还包括非张量，所述输入信息列表还包括其他数据类型列表，将数据类型为非张量的自定义输入信息组成所述其他数据类型列表。

6.根据权利要求1-5任一项所述的方法，其中，所述基于所述算子元信息，构造深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中，包括：

基于当前场景，确定与所述当前场景对应的当前构造函数；

采用所述当前构造函数，基于所述算子元信息，构造深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

7.一种深度学习框架的算子注册装置，包括：

接收模块，用于接收用户提供的用于向深度学习框架注册算子的注册信息，所述注册信息包括：自定义计算函数，所述自定义计算函数的编写方式与所述深度学习框架不相关，所述不相关包括：所述自定义计算函数的函数命名与所述深度学习框架不相关、所述自定义计算函数的函数参数的个数与所述深度学习框架不相关、所述自定义计算函数的函数返回值为变长张量列表，以及，所述自定义计算函数的算子计算逻辑与所述深度学习框架不相关；

创建模块，用于基于所述注册信息，创建所述深度学习框架中的算子元信息；

注册模块，用于基于所述算子元信息，构造所述深度学习框架内部的待注册算子，并将所述待注册算子注册到所述深度学习框架内部的全局算子表中。

8.根据权利要求7所述的装置，其中，所述注册信息还包括：自定义输入信息和自定义输出信息，所述创建模块具体用于：

9.根据权利要求8所述的装置，其中，所述待注册算子包括待注册算子描述信息和待注册算子核函数，所述注册模块具体用于：

10.根据权利要求9所述的装置，其中，所述待注册算子核函数中包括统一形式的输入信息和统一的函数指针，所述注册模块进一步具体用于：

将所述静态函数的输入信息作为所述统一形式的输入信息；

将所述静态函数的函数指针作为所述统一的函数指针。

11.根据权利要求10所述的装置，其中，所述静态函数的输入信息组成输入信息列表，所述输入信息列表包括输入张量列表，所述自定义输入信息包括至少一种数据类型的自定义输入信息，所述结构体包括至少一个特化子结构体，不同的特化子结构体对应不同的数据类型，所述数据类型包括张量，所述注册模块还用于：

12.根据权利要求7-11任一项所述的装置，其中，所述注册模块具体用于：

基于当前场景，确定与所述当前场景对应的当前构造函数；

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。