CN112825154A

CN112825154A - 深度学习中在线推理的优化方法、装置及计算机存储介质

Info

Publication number: CN112825154A
Application number: CN201911143014.8A
Authority: CN
Inventors: 孙鹏; 胡泽林; 林宗明; 徐冠鹏; 马不停; 高文琦
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-05-21

Abstract

本发明实施例公开了一种深度学习中在线推理的优化方法、装置及计算机存储介质。该方法包括：获取对应于预设深度学习模型的第一计算图；将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算，得到第二计算图；根据所述第二计算图，生成最优硬件代码。根据本发明实施例，可以大幅度降低深度学习中在线推理过程的延时，提升响应速度。

Description

深度学习中在线推理的优化方法、装置及计算机存储介质

技术领域

本发明涉及机器学习技术领域，更具体地，涉及一种深度学习中在线推理的优化方法、装置及计算机存储介质。

背景技术

深度学习一般分为训练和在线推理两个阶段，训练阶段主要用于搜索和求解深度学习模型的最优参数，在线推理阶段关注于如何应用训练好的深度学习模型。

在互联网的一些核心应用场景，如广告/推荐/搜索等具有高维稀疏数据特性的应用场景中，在线推理服务面临巨大的挑战：大规模稀疏场景下单PV算力需求为1～10GFLOPs，同时RT约束严格在10ms以下。

现有技术中，通常基于nvidia提供的cudnn和intel提供的mkl库，对训练得到的原始计算图使用图优化技术改写为简单的粗粒度描述的计算图，再使用OP优化技术生成用于在不同的硬件上执行的硬件代码。但该方案的在线推理的延时较大，性能无法满足上述应用场景的需求。因此，发明人认为，有必要针对上述现有技术中存在的至少一个问题进行改进。

发明内容

本发明实施例的一个目的是提供一种深度学习中在线推理的优化的新技术方案。

根据本发明实施例的第一方面，提供了一种深度学习中在线推理的优化方法，所述方法包括：

获取对应于预设深度学习模型的第一计算图；

将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算，得到第二计算图；

根据所述第二计算图，生成最优硬件代码。

可选地，所述获取对应于预设深度学习模型的第一计算图的步骤，包括：

从训练系统获取所述预设深度学习模型；

将所述预设深度学习模型的数据格式转换为预设标准数据格式，得到第一计算图。

可选地，所述将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算的步骤，包括：

根据预设单PV算力将所述第一计算图进行拆分为多个计算子图，并分配至不同的处理单元进行并行计算；

其中，所述预设单PV算力是根据所述预设深度学习模型离线计算得到的。

可选地，所述根据所述第二计算图，生成最优硬件代码的步骤，包括：

对所述第二计算图进行图改写优化，得到第三计算图；所述第三计算图的计算复杂度低于所述第二计算图；

对所述第三计算图进行OP优化，生成所述最优硬件代码。

可选地，所述OP优化至少包括：自动代码生成，循环神经网络RNN手动优化，低精度/量化优化中的一个。

可选地，所述预设标准数据格式为开放神经网络交换ONNX数据格式。

可选地，所述处理单元包括：中央处理单元CPU/图形处理器GPU；或者，所述处理单元包括CPU/现场可编程门阵列FPGA。

根据本发明实施例的第二方面，提供了一种深度学习中在线推理的优化装置，所述装置包括：

获取模块，用于获取对应于待训练目标数据的第一计算图；

分配模块，用于将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算，得到第二计算图；

生成模块，用于根据所述第二计算图，生成最优硬件代码。

根据本发明实施例的第三方面，提供了一种深度学习中在线推理的优化装置，所述装置包括：存储器和处理器，所述存储器用于存储指令；所述指令用于控制所述处理器进行操作，以执行如本发明实施例的第一方面中任意一项所述的深度学习中在线推理的优化方法。

根据本发明实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如本发明实施例的第一方面中任意一项所述的深度学习中在线推理的优化方法。

本发明的一个有益效果在于，根据本发明实施例的方法、装置及计算机存储介质，可以大幅度降低深度学习中在线推理的延时，提升响应速度。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明实施例的系统架构的示意图；

图2是根据本发明实施例的深度学习中在线推理的优化方法的流程示意图；

图3是根据本发明实施例的深度学习中在线推理的优化装置300的结构示意图；

图4是根据本发明实施例的另一深度学习中在线推理的优化装置400的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

下面，参照附图描述根据本发明实施例的各个实施例和例子。

<硬件配置>

图1是根据本发明实施例的系统架构的示意图。

根据图1所示，本实施例的系统中，包括模型结构(model structure)、用户界面(user interface)、调度优化(High-Level Schedule Optimization)、图优化(GraphOptimization)、OP优化(Operator Optimization)和后端(backends)。

其中，model structure中包括多个训练系统：XDL，TF-RS，TensorFlow，MXNet，PyTorch和CNTK，用于提供训练好的深度学习模型。

调度优化中包括模型的数据格式转换(model transform)和调度策略，如Sequential Schedule，DAG Schedule，Mix Schedule，Batching等。图优化中包括用于实现对计算图进行图改写的图优化技术，如Kernel Fusion(核融合技术)，Memory and ManyGraph Pass Optimization(内存和多图传递优化)、Sparse Graph(稀疏图优化)等。OP优化中包括自动代码生成，RNN手动优化，低精度/量化优化等。Backends中包括一些用于计算的处理单元，如CPU、NVIDIA GPU，FPGA和NPU等。用户界面面向开发者，以供开发者自行扩展。

<方法>

图2是根据本发明实施例的深度学习中在线推理的优化方法的流程示意图。

根据图2所示，本实施例的深度学习中在线推理的优化方法可以包括如下步骤210～步骤230：

步骤210，获取对应于预设深度学习模型的第一计算图。

其中，预设深度学习模型是训练系统在深度学习的训练阶段训练好的。该训练系统例如可以是Tensorflow，MxNet，Pytorch等，本实施例对此不作具体限定。

对于不同的训练系统，所获取的预设深度学习模型的数据格式也可能不同，在该步骤210，获取对应于预设深度学习模型的第一计算图具体可以包括：从训练系统获取所述预设深度学习模型；将所述预设深度学习模型的数据格式转换为预设标准数据格式，得到第一计算图。

也就是对预设深度学习模型的数据格式进行格式转换以得到第一计算图，在一个例子中，预设标准数据格式可以为开放神经网络交换(Open Neural Network Exchange，ONNX)数据格式。

步骤220，将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算，得到第二计算图。

该步骤220中，具体的，可以根据预设单PV算力将所述第一计算图进行拆分为多个计算子图，并分配至不同的处理单元进行并行计算；其中，所述预设单PV算力是根据所述预设深度学习模型离线计算得到的，不同的深度学习模型所对应的预设单PV算力的值不同。

其中，所述处理单元可以包括：中央处理单元(Central Processing Unit，CPU)/图形处理器(Graphics Processing Unit，GPU)；或者，所述处理单元包括CPU/现场可编程门阵列(Field－Programmable Gate Array，FPGA)。

具体的，可以将第一计算图G0以CPU和GPU最优协同的计算方式，拆分成不同的计算子图，并分别分配至CPU和GPU进行并行计算，得到第二计算图G1。即，G0＝G1_CPU+G1_GPU。

实际应用中，使用启发式策略，根据预设单PV算力来对第一计算图G0进行拆分。例如，当预设单PV算力小于0.5GFLOPs时，将第一计算图G0主要拆分并分配至CPU上进行计算，当预设单PV算力大于0.5GFLOPs时，将第一计算图G0主要拆分并分配至GPU上进行计算。

在本步骤220中，将第一计算图进行了拆分和分配至不同的处理单元进行并行计算，能够最大限度的利用硬件计算资源，能够在保证延时需求的情况下大幅度提高系统吞吐量，并可以实现针对稀疏-隐藏层(Sparse-Dense)类型的网络的定制优化。

步骤230，根据所述第二计算图，生成最优硬件代码。

本步骤230中，在根据该第二计算图，生成最优硬件代码时，具体的，对所述第二计算图进行图改写优化，得到第三计算图；所述第三计算图的计算复杂度低于所述第二计算图。

其中，对该第二计算图进行图改写优化的目的，是为了将从该训练系统获取的复杂的细粒度描述的该第二计算图通过图优化技术，改写成简单的粗粒度描述的该第三计算图。从计算结果上来说，该第二计算图和该第三计算图是等价的，但从计算性能上来说，该第三计算图的计算复杂度低于该第二计算图，也就是说，该第三计算图的计算速度优于该第二计算图。

具体的，在本步骤中所使用的图优化技术可以包括：核融合技术(KernelFusion)，内存和多图传递优化技术(Memory and Many Graph Pass Optimization)、稀疏图优化技术(Sparse Graph Optimization)。

其中，核融合技术是指通过工程技术手段实现的内核函数的自动融合，以提高硬件加速器的运算效率。能够实现针对广告/推荐场景的数据的大规模高维稀疏特性进行更高效的优化。

在得到该第三计算图后，对该第三计算图进行OP优化，以生成用于硬件执行的硬件代码。其中，该硬件代码可以在不同的硬件，例如CPU、GPU、FPGA、NPU上执行。

具体的，OP优化至少包括自动代码生成(BLAS Auto Tuning&Code Gen)，循环神经网络(Recurrent Neural Network，RNN)手动优化，低精度/量化优化中的一个。

其中，Auto-tuning&Code Gen用于针对不同的硬件资源(比如CPU/GPU/FPGA)生成不同最优硬件代码。RNN手动优化是指针对模型中的RNN部分，根据数据的具体特点进行尽可能的并行化计算。通常默认的计算精度都是FP32，也就是32为float，低精度是指使用FP16代替FP32，量化是指用INT8代替FP32，可以在稍微损失一定计算精度的情况下大幅度提高计算速度。

经过OP优化后，可以自动生成80％以上针对不同硬件通用的IR(中间表达)的不同执行效率最优/近似最优的硬件代码，用以最终执行。

本实施例的方案，可以为精准/品销/搜索广告提供深度学习模型的在线推理加速方法，例如，精准单品猜你喜欢/购后场景的DIEN模型的在线推理过程，banner场景的FC7(Batch&ODL)模型的在线推理过程、单品定向召回TDM模型的在线推理过程等，在此不一一列举。

例如，针对广告模型DIEN的在线推理，使用上述步骤210～步骤230可以达到在10ms内完成200个广告的在线引擎打分排序，并最终展示给用户。

本实施例提供的深度学习中在线推理的优化方法，通过将获取到的与预设深度学习模型对应的第一计算图拆分为多个计算子图并分配至不同处理单元进行并行计算，得到第二计算图，并根据第二计算图生成用于硬件执行的最优硬件代码，实现了大幅度降低深度学习中在线推理过程的延时，提高了响应速度。

<装置>

图3是根据本发明实施例的深度学习中在线推理的优化装置300的结构示意图。

根据图3所示，该深度学习中在线推理的优化装置300可以包括：获取模块310、分配模块320和生成模块330。

其中，该获取模块310用于获取对应于预设深度学习模型的第一计算图。

该分配模块320用于将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算，得到第二计算图.

该生成模块330用于根据所述第二计算图，生成最优硬件代码。

该获取模块310具体用于从训练系统获取所述预设深度学习模型；将所述预设深度学习模型的数据格式转换为预设标准数据格式，得到第一计算图。

该分配模块320具体用于：根据预设单PV算力将所述第一计算图进行拆分为多个计算子图，并分配至不同的处理单元进行并行计算；其中，所述预设单PV算力是根据所述深度学习模型离线计算得到的。

该生成模块330具体用于：对所述第二计算图进行图改写优化，得到第三计算图；所述第三计算图的计算复杂度低于所述第二计算图；对所述第三计算图进行OP优化，生成所述最优硬件代码。

其中，所述OP优化至少包括：自动代码生成，循环神经网络RNN手动优化，低精度/量化优化中的一个。所述预设标准数据格式为开放神经网络交换ONNX数据格式。所述处理单元包括：CPU/GPU；或者，所述处理单元包括CPU/FPGA。

根据图4所示，本实施例的深度学习中在线推理的优化装置400可以包括存储器420和处理器410。

存储器420用于存储指令，该指令用于控制处理器410进行操作以执行本发明任意实施例的深度学习中在线推理的优化方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本实施例的深度学习中在线推理的优化装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

<计算机存储介质>

本实施例中，还提供一种计算机存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实现如本发明任意实施例的深度学习中在线推理的优化方法。

本领域技术人员应当理解，在电子技术领域中，可以通过软件、硬件以及软件和硬件结合的方式，将上述方法体现在产品中本领域技术人员很容易基于上面发明实施例的方法，产生一种信息处理装置，所述信息处理装置包括用于执行根据上述实施例的信息处理方法中的各个操作的模块。

本领域技术人员公知的是，随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势，要明确划分计算机系统软、硬件界限已经显得比较困难了。因为，任何操作可以软件来实现，也可以由硬件来实现。任何指令的执行可以由硬件完成，同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案，取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。对于技术人员来说，软件实现方式和硬件实现方式是等同的。技术人员可以根据需要选择软件或硬件来实现上述方案。因此，这里不对具体的软件或硬件进行限制。

本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种深度学习中在线推理的优化方法，其特征在于，所述方法包括：

获取对应于预设深度学习模型的第一计算图；

根据所述第二计算图，生成最优硬件代码。

2.根据权利要求1所述的方法，其特征在于，所述获取对应于预设深度学习模型的第一计算图的步骤，包括：

从训练系统获取所述预设深度学习模型；

3.根据权利要求2所述的方法，其特征在于，所述将所述第一计算图拆分为多个计算子图分配至不同处理单元进行并行计算的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二计算图，生成最优硬件代码的步骤，包括：

对所述第三计算图进行OP优化，生成所述最优硬件代码。

5.根据权利要求4所述的方法，其特征在于，所述OP优化至少包括：自动代码生成，循环神经网络RNN手动优化，低精度/量化优化中的一个。

6.根据权利要求2所述的方法，其特征在于，所述预设标准数据格式为开放神经网络交换ONNX数据格式。

7.根据权利要求3所述的方法，其特征在于，所述处理单元包括：中央处理单元CPU/图形处理器GPU；或者，所述处理单元包括CPU/现场可编程门阵列FPGA。

8.一种深度学习中在线推理的优化装置，其特征在于，所述装置包括：

获取模块，用于获取对应于待训练目标数据的第一计算图；

生成模块，用于根据所述第二计算图，生成最优硬件代码。

9.一种深度学习中在线推理的优化装置，其特征在于，所述装置包括：存储器和处理器，所述存储器用于存储指令；所述指令用于控制所述处理器进行操作，以执行如权利要求1-7中任意一项所述的深度学习中在线推理的优化方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-7中任意一项所述的深度学习中在线推理的优化方法。