CN116991388B

CN116991388B - 一种深度学习编译器的图优化序列生成方法及装置

Info

Publication number: CN116991388B
Application number: CN202311252630.3A
Authority: CN
Inventors: 王鹏程; 李勇; 曾令仿; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2024-01-09
Anticipated expiration: 2043-09-26
Also published as: CN116991388A

Abstract

本申请公开了一种深度学习编译器的图优化序列生成方法及装置，通过预先训练完成的序列生成模型，根据目标模型的图中间表示，确定各优化策略分别对应的优化特征，再通过序列生成模型的解码器，确定各排位分别对应的排位特征，进而基于各排位特征和各优化特征之间的相关度，确定各排位分别对应的优化策略，以此来确定目标序列。本申请可根据各优化策略确定出各排位分别对应的排位特征，以此来确定出各排位分别匹配的优化策略，使得确定出的目标序列中包含的优化策略与其对应的排位互相匹配，进而保证基于该目标序列优化得到的目标模型的业务执行效率。

Description

一种深度学习编译器的图优化序列生成方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种深度学习编译器的图优化序列生成方法及装置。

背景技术

目前，随着计算机技术的发展和业务融合的需要，深度学习技术在机器视觉、自然语言处理等多个领域得到了广泛应用，随着而来的是使用模型执行的业务数量的增多，在此情况下，如何提高模型执行业务时的效率，已经成为目前需要解决的技术问题之一。

一种较为常用的提高模型的业务执行效率的方法是，确定目标模型中包含的各算子，并通过各算子，确定该目标模型对应的图中间表示（Intermediate Representation，IR）。之后，根据预设的若干优化策略，对该图IR进行优化，得到优化结果。最后，根据优化结果生成用于由目标硬件执行的代码，并将代码部署在目标硬件中，由目标硬件执行相应代码来执行业务。

但是，在对图IR进行优化时，即使使用相同的优化策略相同，在各优化策略的执行顺序不同的情况下，得到的优化结果的性能不同。因此，如何基于预设的优化策略对图IR进行优化是目前亟需解决的问题。

基于此，本申请提供一种深度学习编译器的图优化序列生成方法及装置。

发明内容

本申请提供一种深度学习编译器的图优化序列调优方法及装置，以部分的解决现有技术存在的上述问题。

本申请采用下述技术方案：

本申请提供一种深度学习编译器的图优化序列生成方法，所述方法包括：

响应于优化请求，确定基于目标模型包含的各算子得到的图中间表示；

确定预设的各优化策略，并将所述各优化策略和所述图中间表示作为输入，输入预先训练完成的序列生成模型的编码器中，得到所述编码器输出的各优化策略分别对应的优化特征；

将所述各优化特征输入序列生成模型的解码器中，得到所述解码器输出的目标序列中各排位分别对应的排位特征，再根据各排位特征和各优化特征之间分别对应的相关度，确定目标序列，所述目标序列包含所述各优化策略和所述各优化策略的执行次序；

根据所述优化请求，返回所述目标序列。

可选地，根据各排位特征和各优化特征之间分别对应的相关度，确定目标序列，具体包括：

针对每个优化策略，将该优化策略对应的相关度，作为采样该优化策略的概率；

根据采样所述各优化策略的概率，对所述各未分配策略进行采样，将采样到的未分配策略作为该排位对应的优化策略。

依次针对所述目标序列中的每个排位，确定所述目标序列中位于该排位前的各其他排位分别对应的优化策略，作为各已分配策略，并将除所述各已分配策略外的其他策略，作为各未分配策略；

确定所述排位特征和各未分配策略分别对应的策略特征之间的相关度，并根据各相关度，确定为该排位分配的优化策略。

可选地，所述序列生成模型采用下述方式训练得到：

确定样本模型，并确定基于样本模型包含的各算子得到的样本中间表示，以及确定所述样本模型对应的各样本优化策略；

将所述样本中间表示和所述各样本优化策略输入待训练的序列生成模型的编码器中，得到所述编码器输出的所述各样本优化策略分别对应的样本特征；

通过所述序列生成模型的解码器，得到指定数量的样本序列；其中，针对每个样本序列，该样本序列中各优化策略与其对应的排位之间的相关度和所述解码器输出该样本序列的概率正相关；

针对每个样本序列，根据该样本序列，对所述样本模型进行优化，并确定根据优化结果执行一次模型使用任务所需的时间，作为样本时段；

根据该样本序列对应的样本时段和该样本序列中各优化策略与其对应的排位之间的相关度，确定针对该样本序列的评价值；

确定各样本序列之间在评价值上的评价值差异程度，以最小化评价值差异度为优化目标，对所述序列生成模型进行训练。

可选地，根据该样本序列对应的样本时段和该样本序列中各优化策略与其对应的排位之间的相关度，确定针对该样本序列的评价值，具体包括：

确定该样本序列中各优化策略与其对应的排位之间的相关度，并确定该样本序列中所述各优化策略分别对应的相关度的乘积，作为该样本序列的输出概率，所述输出概率用于表征所述解码器输出该样本序列的概率；

根据该样本序列对应的样本时段和所述输出概率，确定针对该样本序列的评价值，其中，所述评价值和所述样本时段的时长正相关，所述评价值和所述输出概率正相关。

可选地，所述编码器和所述解码器为循环神经网络结构。

可选地，根据各相关度，确定为该排位分配的优化策略，具体包括：

根据各相关度，从所述各未分配策略中，确定与所述排位特征的相关度最高的未分配策略，作为该排位对应的优化策略。

本申请提供一种深度学习编译器的图优化序列生成装置，所述装置包括：

响应模块，用于响应于优化请求，确定基于目标模型包含的各算子得到的图中间表示；

编码模块，用于确定预设的各优化策略，并将所述各优化策略和所述图中间表示作为输入，输入预先训练完成的序列生成模型的编码器中，得到所述编码器输出的各优化策略分别对应的优化特征；

解码模块，用于将所述各优化特征输入序列生成模型的解码器中，得到所述解码器输出的目标序列中各排位分别对应的排位特征，再根据各排位特征和各优化特征之间分别对应的相关度，确定目标序列，所述目标序列包含所述各优化策略和所述各优化策略的执行次序；

返回模块，用于根据所述优化请求，返回所述目标序列。

本申请提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述深度学习编译器的图优化序列生成方法。

本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述深度学习编译器的图优化序列生成方法。

本申请采用的上述至少一个技术方案能够达到以下有益效果：

本申请提供的深度学习编译器的图优化序列生成方法中，通过预先训练完成的序列生成模型，根据目标模型的图中间表示，确定各优化策略分别对应的优化特征，再通过序列生成模型的解码器，确定各排位分别对应的排位特征，进而基于各排位特征和各优化特征之间的相关度，确定各排位分别对应的优化策略，以此来确定目标序列。

本申请可根据各优化策略确定出各排位分别对应的排位特征，以此来确定出各排位分别匹配的优化策略，使得确定出的目标序列中包含的优化策略与其对应的排位互相匹配，进而保证基于该目标序列优化得到的目标模型的业务执行效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请中深度学习编译器的图优化序列生成方法的流程示意图；

图2为本申请提供的列生成模型的结构示意图；

图3为本申请提供的序列生成模型的训练流程示意图；

图4为本申请提供的深度学习编译器的图优化序列生成装置的示意图；

图5为本申请提供的对应于图1的电子设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在实际应用中，可以将深度学习模型部署在多个硬件资源上，即，可以将深度学习模型分为若干算子，由多个硬件资源来执行多个算子。基于此，服务器可以获取深度学习模型所对应的计算图，并确定该计算图中包含的算子，以及确定每个算子匹配的硬件资源。

其中，服务器可以根据通过深度学习编译器确定出的上述深度学习模型对应的高级IR，并将该高级IR进行图优化，得到优化后的计算图，进而将优化后的计算图，作为获取到的深度学习模型所对应的计算图，这里提到的图优化可以是指常规的深度学习编译器进行图优化的方法，可以包括常量折叠、死码消除、公共子表达式消除等。

上述提到的计算图可以是指表示深度学习模型中包含的各算子之间的逻辑关系的有向无环图，这里提到的算子可以是指构成深度学习模型的基础计算单元，如，不同的激活函数可以作为不同的算子；不同的卷积操作可以作为不同的算子；求和、求积、取余等运算也可以作为单独的算子。一个深度学习模型可以由多个算子构成。每个算子可以对应有所匹配的硬件资源，例如，存在有硬件资源1、硬件资源2、硬件资源3，算子1可能被硬件资源1、硬件资源2和硬件资源3均支持，而算子2仅被硬件资源1 和硬件资源2支持。

而上述确定图IR，并对图IR进行优化，得到优化结果，以及根据优化结果生成用于由目标硬件执行的代码的过程，即为深度学习编译器执行编译任务的过程。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请提供的一种深度学习编译器的图优化序列生成方法的流程示意图。

S100：响应于优化请求，确定基于目标模型包含的各算子得到的图中间表示。

本申请实施例中提供一种深度学习编译器的图优化序列生成方法，其中涉及到的序列生成模型可以是经预先训练得到的，该深度学习编译器的图优化序列生成方法的执行过程可由用于执行模型使用任务的服务器，或用于执行模型优化方法的服务器等电子设备，亦或是用于执行将目标模型编译为可执行代码的深度学习编译器执行。执行序列生成模型的训练过程的电子设备与执行该深度学习编译器的图优化序列生成方法的服务器可为相同服务器，也可为不同服务器，本申请对此不做限定。为了便于描述，下面仅以服务器为执行主体，对本申请提供的深度学习编译器的图优化序列生成方法进行详细说明。

在本申请实施例中，该服务器可接收优化请求。该优化请求中可携带有用于进行优化的目标模型的模型标识，也可携带有用于进行优化的目标模型的模型结构和模型参数，还可携带有用于进行优化的目标模型对应的图中间表示，即，图IR。

于是，该服务器可对接收到的优化请求进行解析，确定出用于进行优化的目标模型，进而根据该目标模型中包含的深度学习框架和各算子，确定该目标模型的图IR。或者，该服务器可对接收到的优化请求进行解析，直接确定该目标模型对应的图IR。

当然，该服务器还可直接接收优化任务，同样，该优化任务中携带有用于进行优化的目标模型的模型标识，也可携带有用于进行优化的目标模型的模型结构和模型参数，还可携带有用于进行优化的目标模型对应的图中间表示。具体目标模型的图中间表示如何确定可根据需要进行设置，本申请对此不做限制。

需要说明的是，本申请提供的深度学习编译器的图优化序列生成方法，具体可应用于深度学习编译器执行编译任务时对计算图进行优化的步骤。也就是说，上述生成的目标序列，可用于执行编译任务中对计算图进行优化的步骤。

S102：确定预设的各优化策略，并将所述各优化策略和所述图中间表示作为输入，输入预先训练完成的序列生成模型的编码器中，得到所述编码器输出的各优化策略分别对应的优化特征。

在本申请提供的一个或多个实施例中，如前所述的，本申请中的该深度学习编译器的图优化序列生成方法，其目的是确定出各优化策略分别对应的执行次序。对于这一目的，本申请中采用确定各优化策略分别对应的优化特征，再确定各排位分别对应的排位特征，进而基于各排位特征和各优化特征之间的相关度，确定各排位分别对应的优化策略的技术手段。基于此，该服务器可首先确定各优化特征。

具体的，该服务器可确定该目标模型对应的优化策略。该优化策略可根据预设的指定数量，从自身预先存储的各优化策略中，确定指定数量的优化策略，作为该目标模型对应的优化策略。

当然，该优化策略还可为优化请求中携带的，则该服务器可对该优化请求进行解析，确定该优化请求中携带的各优化策略，作为该目标模型对应的优化策略。

之后，该服务器可将各优化策略作为输入，输入该预先训练完成的序列生成模型的编码器中，得到该编码器输出的各优化策略分别对应的优化特征。

进一步的，该编码器可采用循环神经网络结构。于是，该服务器可依次将各优化策略分别作为输入，输入该编码器中，得到该编码器依次输出的各优化策略分别对应的优化特征。

S104：将所述各优化特征输入序列生成模型的解码器中，得到所述解码器输出的目标序列中各排位分别对应的排位特征，再根据各排位特征和各优化特征之间分别对应的相关度，确定目标序列，所述目标序列包含所述各优化策略和所述各优化策略的执行次序。

在本申请提供的一个或多个实施例中，如前所述的，该深度学习编译器的图优化序列生成方法需确定各排位分别对应的排位特征，进而基于各排位特征和各优化特征之间的相关度，确定各排位分别对应的优化策略，以此来生成目标序列。

具体的，针对目标序列中的每个排位，该服务器可将各优化特征作为输入，输入该序列生成模型的解码器中，得到解码器输出的该排位对应的排位特征。

之后，根据该排位特征和各优化特征，该服务器可确定该排位特征和各优化特征之间分别对应的相关度。则该服务器可根据各相关度，从各优化策略中，确定与该排位的相关度最高的优化策略，作为该排位对应的优化策略。

最后，根据各排位分别对应的优化策略，该服务器可确定目标序列。其中，该目标序列中包含各优化策略以及各优化策略的执行顺序。且针对该目标序列中的每个优化策略，该目标序列中仅包含一个该优化策略。

进一步的，该解码器可采用循环神经网络结构。于是，该服务器将各优化策略输入该解码器，得到该解码器依次输出的各排位分别对应的排位特征。

基于相同思路，本申请提供一种序列生成模型的结构示意图，如图2所示。

图2为本申请提供的序列生成模型的结构示意图，图中，该服务器可将各优化策略一次输入该序列生成模型的编码器中，得到该编码器分别输出的各策略分别对应的策略特征。图中以优化策略包含策略1、策略2和策略3这三个优化策略为例进行说明，且需要说明的是，上述优化策略包含的策略的数量以及各策略的输入顺序仅为示例说明，预设的优化策略的数量以及各优化策略分别对应的输入顺序可根据需要进行设置，本申请对此不做限制。

然后，该服务器可将各优化特征输入解码器中，得到该解码器依次针对目标序列中每个排位分别对应的排位特征。

最后，根据该排位特征和各优化特征，确定该排位特征和各优化特征分别对应的相关度。其中，针对每个优化特征，该优化特征和该排位特征之间的相关度可为该优化特征和该排位特征之间的欧氏距离、余弦距离等，具体如何衡量优化特征和排位特征之间的相关度，可根据需要进行设置，本申请对此不做限制。

其中，左侧由策略指向编码器的箭头用于表征将策略输入到编码器内。编码器之间的箭头用于表征针对每个策略，该策略对应的策略特征根据该策略自身以及在该策略前输入该编码器的策略的特征确定。编码器指向解码器的箭头用于表征编码器在将各策略进行编码器后，将基于各策略得到的隐层特征输入到解码器中。各解码器之间的箭头用于表征对每个排位，该排位对应的排位特征根据该排位自身对应的特征以及在该排位前输出的其他排位特征确定。解码器指向策略的箭头用于表征各排位分别对应的策略。其中，针对目标序列中的每个排位，该排位用于表征该排位对应的策略对应的执行次序。

S106：根据所述优化请求，返回所述目标序列。

在本申请提供的一个或多个实施例中，该深度学习编译器的图优化序列生成方法，其目的是确定出可使目标模型的执行效率最高的优化策略。因此，在确定出目标序列后，该服务器可根据该优化请求将目标序列返回。

具体的，该服务器可确定该目标序列，并根据该优化请求，将该目标序列进行返回。

而在接收到该目标序列后，用于对目标模型进行优化的服务器可根据该目标序列，对目标模型的图IR进行优化，确定优化结果，并根据优化结果编译目标硬件可执行的业务执行代码，使得目标硬件可通过执行该业务执行代码来执行模型使用任务。

如图1所示的深度学习编译器的图优化序列生成方法，通过预先训练完成的序列生成模型，根据目标模型的图中间表示，确定各优化策略分别对应的优化特征，再通过序列生成模型的解码器，确定各排位分别对应的排位特征，进而基于各排位特征和各优化特征之间的相关度，确定各排位分别对应的优化策略，以此来确定目标序列。本申请可根据各优化策略确定出各排位分别对应的排位特征，以此来确定出各排位分别匹配的优化策略，使得确定出的目标序列中包含的优化策略与其对应的排位互相匹配，进而保证基于该目标序列优化得到的目标模型的业务执行效率。

进一步的，本申请中的序列生成模型可采用下述方式训练得到：

具体的，该服务器可首先确定样本模型，并确定基于样本模型包含的各算子得到的样本中间表示。

然后，该服务器可确定该样本模型对应的各样本优化策略，并将该样本中间表示和该各样本优化策略输入待训练的序列生成模型的编码器中，得到该编码器输出的该各样本优化策略分别对应的样本特征。其中，与目标模型的优化策略类似，该样本模型的样本优化策略可为该服务器根据自身存储的各优化策略确定，也可为该序列生成模型对应的模型训练请求中携带。

之后，该服务器可将该各样本特征输入序列生成模型的解码器中，得到该解码器输出的样本序列。

接着，根据该样本序列，该服务器可对该样本模型进行优化，并确定该优化结果执行一次模型使用任务所需的时间，作为样本时段。

由于本申请中的训练样本，即，样本模型没有启对应的标注，因此，该服务器可采用强化学习的方式，来训练该序列生成模型。

于是，该服务器可重复上述过程，确定指定数量的样本序列和各样本序列分别对应的样本时段。其中，该服务器可将各样本优化策略对应的优化特征重复输入该序列生成模型的解码器中，得到该解码器输出的各样本序列。当然，该服务器也可将各优化策略和该样本模型作为输入，重复输入该序列生成模型中，得到该序列生成模型输出的各样本序列。具体各样本序列如何确定可根据需要进行设置，本申请对此不做限制。

其中，针对每个样本序列，该样本序列中各优化策略与其对应的排位之间的相关度和所述解码器输出该样本序列的概率正相关。也就是说，针对该样本序列中的每个排位，该排位对应的优化策略和该排位之间的相关度越高，则解码器输出该样本序列的概率越高。

最后，针对每个样本序列，该服务器可根据该样本序列对应的样本时段，以及该样本序列中各优化策略与其对应的排位之间的相关度，确定针对该样本序列的评价值，进而确定各样本序列之间在评价值上的评价值差异程度，以最小化评价值差异度为优化目标，对该序列生成模型进行训练。

也就是说，针对每个样本序列，该服务器可确定该样本序列的执行时段，当该执行时段越短时，该服务器可确定该样本序列的评价值越低。同时，当样本序列中各优化策略与其对应的排位之间的相关度越低，该服务器可确定该样本序列的评价值越低。

于是，基于该方式训练得到的模型，对于执行时段越短的样本序列，其对应的相关度越高，执行时段越长的样本序列，其对应的相关度越低。其中，针对每个样本序列，该编码器输出该样本序列的概率和该样本序列中各优化策略与其对应的排位之间的相关度成正比。

更进一步的，该序列生成模型的训练目标是，在将各优化策略输入模型中后，该模型可输出执行时段对应的时段最短的样本序列。也就是说，使得执行时间短的样本序列出现的概率较高，执行时间长的样本序列出现的概率较低。因此，该服务器可将基于各样本序列的输出概率和各样本序列的执行时间，确定各样本序列分别对应的与执行时间正相关、且与输出概率正相关的评价值。则可基于各样本序列的评价值之间的差距，达到使执行时间短的样本序列出现的概率较高，执行时间长的样本序列出现的概率较低这一目的。

具体的，该服务器可针对每个样本序列，确定该样本序列中各优化策略与其对应的排位之间的相关度，并确定该样本序列中各优化策略分别对应的相关度的乘积，作为该样本序列的输出概率。于是，根据该样本序列对应的样本时段和所述输出概率，该服务器可确定针对该样本序列的评价值。其中，所述评价值和所述样本时段的时长正相关，所述评价值和所述输出概率正相关。

另外，在步骤S104中，该服务器可确定针对每个排位，确定该排位对于各优化策略的采样概率，再根据采样概率确定各排位分别对应的优化策略。

具体的，该服务器可针对每个排位，将各优化策略与该排位对应的排位特征之间的相关度，作为采样各优化策略的概率。

之后，根据采样所述各优化策略的概率，该服务器可对所述各未分配策略进行采样，将采样到的未分配策略作为该排位对应的优化策略。

更进一步的，在本申请中，针对目标序列中的每个优化策略，该目标序列中该优化策略的数量为且仅为一个，于是，该服务器可针对每个排位，从尚未分配的各优化策略中，确定为该排位分配的优化策略。

具体的，该服务器可依次针对目标序列中的每个排位，确定目标序列中位于该排位前的各其他排位分别对应的优化策略，作为各已分配策略，并将除各已分配策略外的其他策略，作为各未分配策略。

于是，该服务器可确定排位特征和各未分配策略分别对应的策略特征之间的相关度，并根据各相关度，确定为该排位分配的优化策略。

记目标序列中第i个排位对应的排位特征为，编码器输出的各策略分别对应的策略特征为/>。以该策略特征和该排位特征均为行向量或列向量，且二者维度相等为例，若优化策略未分配给目标序列中对应的排位/>之前的其他排位，则该优化策略对应的相关度为/>，否则取/>，其中/>。

于是，针对每个排位，在确定出该排位与各优化策略之间分别对应的相关度后，该服务器可直接针对每个优化策略，将该优化策略对应相关度作为该排位输出该策略的概率。

当然，该服务器也可针对每个排位，根据该排位与各优化策略分别对应的相关度，构建先相关度向量，并对该相关度向量进行归一化（），得到归一化结果。并根据归一化结果，重新确定各优化策略分别对应的相关度。具体的，针对每个优化策略，该服务器可直接将该优化策略对应的相关度的归一化结果，作为重新确定出的该优化策略对应的相关度。

举例来说，对于图2中的输入序列，假设在目标序列中第二个排位得到的相关度向量为，其中第二个优化策略对应的相关度为/>是因为它已经分配给该目标序列中的第一个排位。则进一步地，对该相关度向量进行归一化，得到归一化结果：，根据该概率采样后得到该排位输出指向优化策略1。基于图2网络结构可以建模优化排列的概率，即/>，其中/>是在排位/>输出所指向优化策略的概率，对照上述例子，对于第二个输出位置，。也就是说，针对每个序列，该服务器可确定该序列中各排位与其对应的优化策略之间的相关度的乘积，作为该序列生成模型输出该序列的概率。其中，位于编码器和解码器上方的连接结构，既表征该服务器可将各优化策略都输入解码器中，又表征该序列生成模型的网络结构可对为指针网络，即，针对每个排位，在确定出该排位和各优化策略分别对应的相关度后，基于各相关度对各排位进行采样，并生成由解码器指向该采样结果的路径。以图2为例，该服务器可生成由排位2对应的编码器指向策略1的路径。

选定序列生成模型之后对其进行初始化，记模型参数为。接下来根据强化学习算法对模型进行优化。目标函数/>，其中/>表示按优化排列/>进行优化后对应的运行时间。利用REINFORCE算法，对目标函数求梯度并用蒙特卡洛算法进行近似可以得到/>。其中，/>为baseline，用于减少估计的方差，比如可以取在不同优化排列下运行时间的滑动平均值。得到梯度后，利用梯度下降方法对模型参数/>进行更新。/>用于表征目标函数在模型参数为/>时的梯度。N为该序列生成模型在一次迭代过程中输出的样本序列的数量。用于表征各样本序列中第k个样本序列对应的样本时段，/>用于表征各样本序列中第k个样本序列对应的输出概率。

需要说明的是，该强化学习的训练目标为各样本序列分别对应的评价值，即，基于目标函数得到的函数值之间的差异最小化。也就是说，针对每个样本序列，若该样本序列对应的样本时段较短，则调整模型参数使该样本序列的输出概率较高，若该样本序列对应的样本时段较长，则调整模型参数使该样本序列的输出概率较低，以此来实现各样本序列的评价值之间的差异最小这一目的。

当然，上述强化学习算法仅为示例说明外，该服务器可采用任一强化学习算法对该序列生成模型进行训练。

基于同样思路，本申请提供一种序列生成模型的训练流程示意图，如图3所示。

图3为本申请提供的序列生成模型的训练流程示意图，该服务器可首先初始化样本模型的模型参数，并通过初始化后的样本模型，确定该样本模型对应的各样本序列。确定各样本序列的样本时段，以及各样本序列分别对应的输出概率，并基于各样本序列的样本时段和输出概率，确定各样本序列的评价值。进而基于各样本序列的评价值的差异，对该样本模型的模型参数进行调整，直至满足迭代终止条件为止。其中，该迭代终止条件可为该序列生成模型的迭代次数到达预设的次数阈值，也可为各样本序列的评价值之间的差异小于预设的差异阈值。则在训练完成后，该服务器可通过该序列生成模型，确定目标模型的最优序列，作为目标序列。其中，该最优序列用于表征基于该最优序列对目标模型进行优化后，基于优化结果执行一次模型使用任务所需的执行时间最短。在训练过程中，该样本模型为序列生成模型。

图4为本申请提供的一种深度学习编译器的图优化序列生成装置示意图，其中：

响应模块200，用于响应于优化请求，确定基于目标模型包含的各算子得到的图中间表示；

编码模块202，用于确定预设的各优化策略，并将所述各优化策略和所述图中间表示作为输入，输入预先训练完成的序列生成模型的编码器中，得到所述编码器输出的各优化策略分别对应的优化特征；

解码模块204，用于将所述各优化特征输入序列生成模型的解码器中，得到所述解码器输出的目标序列中各排位分别对应的排位特征，再根据各排位特征和各优化特征之间分别对应的相关度，确定目标序列，所述目标序列包含所述各优化策略和所述各优化策略的执行次序；

返回模块206，用于根据所述优化请求，返回所述目标序列。

可选地，解码模块204，用于针对每个优化策略，将该优化策略对应的相关度，作为采样该优化策略的概率，根据采样所述各优化策略的概率，对所述各未分配策略进行采样，将采样到的未分配策略作为该排位对应的优化策略。

可选地，解码模块204，用于依次针对所述目标序列中的每个排位，确定所述目标序列中位于该排位前的各其他排位分别对应的优化策略，作为各已分配策略，并将除所述各已分配策略外的其他策略，作为各未分配策略，确定所述排位特征和各未分配策略分别对应的策略特征之间的相关度，并根据各相关度，确定为该排位分配的优化策略。

所述装置还包括：训练模块208，用于采用下述方式训练得到所述序列生成模型：

确定样本模型，并确定基于样本模型包含的各算子得到的样本中间表示，以及确定所述样本模型对应的各样本优化策略，将所述样本中间表示和所述各样本优化策略输入待训练的序列生成模型的编码器中，得到所述编码器输出的所述各样本优化策略分别对应的样本特征；通过所述序列生成模型的解码器，得到指定数量的样本序列，其中，针对每个样本序列，该样本序列中各优化策略与其对应的排位之间的相关度和所述解码器输出该样本序列的概率正相关，针对每个样本序列，根据该样本序列，对所述样本模型进行优化，并确定根据优化结果执行一次模型使用任务所需的时间，作为样本时段，根据该样本序列对应的样本时段和该样本序列中各优化策略与其对应的排位之间的相关度，确定针对该样本序列的评价值，确定各样本序列之间在评价值上的评价值差异程度，以最小化评价值差异度为优化目标，对所述序列生成模型进行训练。

可选地，训练模块208，用于确定该样本序列中各优化策略与其对应的排位之间的相关度，并确定该样本序列中所述各优化策略分别对应的相关度的乘积，作为该样本序列的输出概率，所述输出概率用于表征所述解码器输出该样本序列的概率，根据该样本序列对应的样本时段和所述输出概率，确定针对该样本序列的评价值，其中，所述评价值和所述样本时段的时长正相关，所述评价值和所述输出概率正相关。

可选地，所述编码器和所述解码器为循环神经网络结构。

可选地，解码模块204，用于根据各相关度，从所述各未分配策略中，确定与所述排位特征的相关度最高的未分配策略，作为该排位对应的优化策略。

本申请还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1所示的深度学习编译器的图优化序列生成方法。

本申请还提供了图5所示的电子设备的示意结构图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的深度学习编译器的图优化序列生成方法。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种深度学习编译器的图优化序列生成方法，其特征在于，所述方法包括：

将所述各优化特征输入序列生成模型的解码器中，得到所述解码器输出的目标序列中各排位分别对应的排位特征，再针对每个排位，确定该排位对于各优化策略的采样概率，以及根据采样概率确定各排位分别对应的优化策略；

其中，所述目标序列包含所述各优化策略和所述各优化策略的执行次序，针对每个排位，各优化策略和该排位对应的排位特征之间的相关度，为该排位对应于各优化策略的采样概率；

根据所述优化请求，返回所述目标序列。

2.如权利要求1所述的方法，其特征在于，确定该排位对于各优化策略的采样概率，以及根据采样概率确定各排位分别对应的优化策略，具体包括：

确定所述目标序列中位于该排位前的各其他排位分别对应的优化策略，作为各已分配策略，并将除所述各已分配策略外的其他策略，作为各未分配策略；

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述序列生成模型采用下述方式训练得到：

5.如权利要求4所述的方法，其特征在于，根据该样本序列对应的样本时段和该样本序列中各优化策略与其对应的排位之间的相关度，确定针对该样本序列的评价值，具体包括：

6.如权利要求1所述的方法，其特征在于，所述编码器和所述解码器为循环神经网络结构。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

针对每个排位，确定所述目标序列中位于该排位前的各其他排位分别对应的优化策略，作为各已分配策略，并将除所述各已分配策略外的其他策略，作为各未分配策略；

根据该排位特征和各优化特征之间的相关度，从所述各未分配策略中，确定与所述排位特征的相关度最高的未分配策略，作为该排位对应的优化策略。

8.一种深度学习编译器的图优化序列生成装置，其特征在于，所述装置包括：

解码模块，用于将所述各优化特征输入序列生成模型的解码器中，得到所述解码器输出的目标序列中各排位分别对应的排位特征，再针对每个排位，确定该排位对于各优化策略的采样概率，以及根据采样概率确定各排位分别对应的优化策略；其中，所述目标序列包含所述各优化策略和所述各优化策略的执行次序，针对每个排位，各优化策略和该排位对应的排位特征之间的相关度，为该排位对应于各优化策略的采样概率；

返回模块，用于根据所述优化请求，返回所述目标序列。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。