CN116167461A

CN116167461A - 一种模型训练的方法、装置、存储介质及电子设备

Info

Publication number: CN116167461A
Application number: CN202310435496.4A
Authority: CN
Inventors: 王宏升; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-05-26
Anticipated expiration: 2043-04-21
Also published as: CN116167461B

Abstract

本说明书公开了一种模型训练的方法、装置、存储介质及电子设备，本方法在前向计算过程中，将后向函数按照前向计算的顺序入栈存储，并通过存储后向函数在栈中的位置与前向输出张量的方式，将前向输出张量与后向函数绑定，既能够在前向计算的过程中构建后向计算图的逻辑，又隐式地维护了前向计算与后向计算之间的依赖联系，使得后向计算确定梯度时的速度和效率得以提高，能够更好的进行模型训练。

Description

一种模型训练的方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种模型训练的方法、装置、存储介质及电子设备。

背景技术

随着计算机技术的飞速发展，深度学习的应用也越来越广泛。

在训练机器学习模型的过程中，通常在待训练的机器学习模型对应的计算图的后向计算过程中确定梯度，再根据确定出的梯度训练机器学习模型。在计算图的后向计算过程中，通常有两种确定梯度的方式，一种是主动触发计算梯度，一种是被动触发计算梯度。被动触发即将计算图在前向计算过程中的末尾节点作为后向计算的起始节点，而主动触发则是用户指定计算图中的任意一个节点作为后向计算的起始节点。确定后向计算的起始节点后，需要确定该指定节点在前向计算过程中的输出数据作为该指定节点在后向计算过程中的输入数据。

在现有的主动触发计算梯度技术中，确定指定节点作为后向计算的起始节点后，若该指定节点非前向计算过程中的末尾节点，则需要再次重复前向计算过程，以确定前向计算过程中该指定节点的输出结果，将该输出结果作为该指定节点（后向计算的起始节点）的输入数据，显然，这种方式需要耗费大量计算资源。

基于此，本说明书提供一种模型训练的方法。

发明内容

本说明书提供一种模型训练的方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供一种模型训练的方法，所述方法包括：

确定待训练模型以及所述待训练模型对应的计算图；

根据训练样本确定所述待训练模型的输入，按照所述计算图的前向计算顺序，依次针对所述计算图中每个算子，确定该算子的前向输入张量，并通过该算子的前向函数确定该算子的前向输出张量；

将该算子的后向函数压入栈中，存储该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置；

将该算子的前向输出张量，作为该算子的下一算子的前向输入张量，继续计算直至确定所述待训练模型输出的训练结果为止；

响应于后向计算的指令，根据所述指令从所述计算图中确定后向计算过程中的起始算子，将存储的所述起始算子的前向输出张量，作为后向初始张量；

根据所述后向初始张量，从所述起始算子在所述栈中对应的后向函数开始，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，作为下一个出栈的后向函数的后向输入张量，直至所述栈中的函数出栈完毕为止；

根据最终确定的后向输出张量，确定待训练模型的梯度，根据所述梯度调整模型参数。

可选地，所述计算图在前向计算顺序中的第一个算子的前向输入张量是根据训练样本确定出的所述待训练模型的输入；所述后向初始张量是后向计算过程中的起始算子的后向输入张量。

可选地，存储该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置，具体包括：

存储该算子的前向输出张量、该算子的后向函数在所述栈中的指针位置，以及该算子的前向输出张量与所述指针位置之间的对应关系。

可选地，张量包括各算子的前向输入张量与前向输出张量、后向初始张量，以及各算子的后向输入张量与后向输出张量。

可选地，所述张量由成员变量、条件变量以及成员方法构成；

所述成员变量包括常态成员变量、临时成员变量以及后向函数指针变量；

所述条件变量包括用于判断是否进行后向计算的第一条件变量，用于判断后向计算的起始算子是否是计算图中前向计算顺序的末尾算子的第二条件变量，用于判断后向计算的起始算子是否是用户指定的算子的第三条件变量，用于判断是否保存后向输出张量的第四条件变量；

所述成员方法包括用于获取并存储后向输出张量的第一成员方法，用于获取后向函数的第二成员方法。

可选地，所述后向输入张量与所述后向输出张量定义为二级共享指针类型。

可选地，所述待训练的机器学习模型对应的计算图为多个；

确定待训练模型的梯度，根据所述梯度调整模型参数，具体包括：

针对每个计算图，确定所述待训练模型对应该计算图的梯度；

根据所述待训练模型对应该计算图的梯度，分别训练所述待训练模型，得到多个训练好的模型；

根据预设标准，从各训练好的模型中确定目标模型。

可选地，所述方法还包括：

根据所述第四条件变量判断所述后向输出张量中的成员变量是否为常态成员变量；

若是，存储所述后向输出张量；

若否，释放该后向输出张量占用的存储空间。

本说明书提供了一种模型训练的装置，所述装置包括：

确定模块，用于确定待训练模型以及所述待训练模型对应的计算图；

前向计算模块，用于根据训练样本确定所述待训练模型的输入，按照所述计算图的前向计算顺序，依次针对所述计算图中每个算子，确定该算子的前向输入张量，并通过该算子的前向函数确定该算子的前向输出张量；

存储模块，用于将该算子的后向函数压入栈中，存储该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置；

前向计算模块，还用于将该算子的前向输出张量，作为该算子的下一算子的前向输入张量，继续计算直至确定所述待训练模型输出的训练结果为止；

响应模块，用于响应于后向计算的指令，根据所述指令从所述计算图中确定后向计算过程中的起始算子，将存储的所述起始算子的前向输出张量，作为后向初始张量；

后向计算模块，用于根据所述后向初始张量，从所述起始算子在所述栈中对应的后向函数开始，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，作为下一个出栈的后向函数的后向输入张量，直至所述栈中的函数出栈完毕为止；

调整模块，用于根据最终确定的后向输出张量，确定待训练模型的梯度，根据所述梯度调整模型参数。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本方法将后向函数按照前向计算的顺序入栈存储，并通过存储后向函数在栈中的位置与前向输出张量的方式，将前向输出张量与后向函数绑定，既能够在前向计算的过程中构建后向计算图的逻辑，又隐式地维护了前向计算与后向计算之间的依赖联系，能够更好的进行模型训练。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种模型训练的方法的流程示意图；

图2为本说明书中提供的一种前向计算的示意图；

图3为本说明书中提供的一种在前向计算过程中将后向函数入栈的示意图；

图4为本说明书中提供的一种后向计算的示意图；

图5为本说明书中提供的另一种后向计算的示意图；

图6为本说明书提供的一种模型训练的装置结构的示意图；

图7为本说明书提供的一种对应于图1的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种模型训练的方法的流程示意图，包括以下步骤：

S100：确定待训练模型以及所述待训练模型对应的计算图。

本说明书提供的模型训练方法的执行主体是任意一种具有计算能力的电子设备，如计算机、服务器等。为方便描述，下述均以服务器为执行主体进行说明。

在本说明书提供的一种实施例中，服务器确定待训练的机器学习模型，例如训练用于舆情分析的半监督文本分类模型，或者用于法律文书的命名实体识别模型，然后确定能够实现该待训练模型对应的计算图。

需要说明的是，本方法可以通过人工或者各机器学习框架支持的工具实现计算图的生成，本说明书在此并不限制确定模型的计算图的方式。

S102：根据训练样本确定所述待训练模型的输入，按照所述计算图的前向计算顺序，依次针对所述计算图中每个算子，确定该算子的前向输入张量，并通过该算子的前向函数确定该算子的前向输出张量。

在本说明书提供的一种实施例中，确定了待训练模型与模型对应的计算图后，确定训练样本，例如，确定的待训练模型是用于舆情分析的半监督文本分类模型时，确定的训练样本即文本类数据，该文本分类模型对文本类数据进行分类，分类结果可以用于舆情分析。

而确定的待训练模型是用于法律文书的命名实体识别的模型时，确定的训练样本即法律文书，该法律文书样本包含罪名，命名实体识别可以是对罪名的识别。

根据训练样本确定所述待训练模型的输入即根据输入所述待训练的机器学习模型的前向初始张量，按照所述计算图的前向计算顺序，依次针对所述计算图中每个算子，确定该算子的前向输入张量，并通过该算子的前向函数确定该算子的前向输出张量，作为该算子的下一算子的前向输入张量。

根据训练样本确定所述待训练模型的输入，具体地，可以对计算图中各算子按照前向计算顺序进行排序，每个算子具有唯一的编号，然后确定计算图中第一个算子的输入作为前向初始张量。例如，如图2所示，确定计算图中第一个算子的输入，即前向初始张量为a。

将前向初始张量作为输入，通过第一个算子的前向函数对该算子的前向输入张量进行计算，得到第一个算子的前向输出张量，作为第二个算子的前向输入张量，然后通过第二个算子的前向函数对该算子的前向输入张量进行计算，得到第二个算子的前向输出张量，作为第三个算子的前向输入张量，以此类推。

沿用上例，如图2所示，将前向初始张a作为输入，通过第一个算子（算子1）的前向函数对该算子（算子1）的前向输入张量进行计算，得到第一个算子（算子1）的前向输出张量b，作为第二个算子（算子2）的前向输入张量，然后通过第二个算子（算子2）的前向函数对该算子（算子2）的前向输入张量b进行计算，得到第二个算子（算子2）的前向输出张量c，作为第三个算子（算子3）的前向输入张量，然后通过第三个算子（算子3）的前向函数对该算子（算子3）的前向输入张量c进行计算，得到第三个算子（算子3）的前向输出张量d。

S104：将该算子的后向函数压入栈中，存储该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置。

在本说明书提供的一种实施例中，服务器在进行前向计算时，能够构建后向计算的顺序。具体地，针对每个算子，确定该算子的前向输出张量后，将该算子的后向函数压入栈中，并存储该算子的前向输出张量、该算子的后向函数在所述栈中的指针位置，以及该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置。

由于将后向函数进行压栈的顺序是在前向计算过程中，按照前向计算的顺序进行的，所以这样做能够通过栈只有一个入口，先进后出的数据结构构建计算图的后向计算的顺序，并且针对每个算子，由于该算子的前向输出张量是该算子的后向函数的输入张量，所以本方法还存储了该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置，维护了各算子的前向输出张量以及各算子的后向函数之间的依赖关系。

S106：将该算子的前向输出张量，作为该算子的下一算子的前向输入张量，继续计算直至确定所述待训练模型输出的训练结果为止。

在本说明书提供的一种实施例中，确定该算子的前向输出张量后，将该算子的前向输出张量，作为该算子的下一算子的前向输入张量，继续重复上述步骤S100~S104直至确定所述待训练模型输出的训练结果为止。待训练模型输出的训练结果即根据计算图最后一个算子（按照前向计算顺序）的前向输出张量得到的结果。

如图3所示，沿用上例，在前向计算过程中，将前向初始张a作为输入，通过算子1的前向函数对算子1的前向输入张量a进行计算，得到算子1的前向输出张量b，将算子1的后向函数表达式压入栈中，将算子1的前向输出张量b作为算子2的前向输入张量，然后通过算子2的前向函数对算子2的前向输入张量b进行计算，得到算子2的前向输出张量c，将算子2的后向函数表达式压入栈中，将c作为算子3的前向输入张量，然后通过算子3的前向函数对算子3的前向输入张量c进行计算，得到算子的前向输出张量d，将算子3的后向函数表达式压入栈中。

S108：响应于后向计算的指令，根据所述指令从所述计算图中确定后向计算过程中的起始算子，将存储的所述起始算子的前向输出张量，作为后向初始张量。

在本说明书提供的一种实施例中，当需要进行模型的后向计算确定待训练模型的梯度时，响应于后向计算的指令，根据该指令从计算图中确定后向计算的起始算子，在存储的各算子的前向输出张量中，确定起始算子的前向输出张量，将起始算子的前向输出张量，作为后向初始张量。

服务器响应于后向计算的指令，根据该指令从计算图中确定后向计算的起始算子，存在两种方式，一种即主动触发，一种为被动触发。被动触发即将计算图在前向计算过程中的末尾节点作为后向计算的起始节点，而主动触发则是用户指定计算图中的任意一个节点作为后向计算的起始节点。

其中，在存储的各算子的前向输出张量中确定起始算子的前向输出张量，具体地，因为各算子的前向输出张量是按照各算子的前向计算的顺序进行计算并存储的，所以可以按照前向顺序确定起始算子在各算子中的位置，然后按照该位置在存储的各前向输出张量中确定起始算子的前向输出张量，因为在如步骤S104所述的方法中。也可以预先在如步骤S104所述的方法中，存储各算子的输出张量存储各算子的标识或者序号，然后根据标识或序号在存储的各算子的前向输出张量中确定起始算子的前向输出张量。

S110：根据所述后向初始张量，从所述起始算子在所述栈中对应的后向函数开始，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，作为下一个出栈的后向函数的后向输入张量，直至所述栈中的函数出栈完毕为止。

当起始节点为计算图中前向计算顺序中的末尾节点时，起始节点的后向函数就是栈顶存储的后向函数，直接根据后向初始张量，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，作为下一个出栈的后向函数的后向输入张量，直至所述栈中的函数出栈完毕为止。其中，起始节点的后向输入张量就是后向初始张量。

如图4所示，沿用上例，起始节点为计算图中前向计算顺序中的末尾节点的算子3，则后向初始张量为d，算子3的后向函数在栈顶，则使算子3的后向函数出栈，将d输入算子3的后向函数中，计算得到算子3的后向输出张量e，作为算子2的后向输入张量，使算子2的后向函数出栈，将e输入算子2的后向函数中，计算得到算子2的后向输出张量f，作为算子1的后向输入张量，将f输入算子1中，使算子1的后向函数出栈，计算得到算子1的后向输出张量g。

当起始节点不是计算图中前向计算顺序中的末尾节点时，起始节点的后向函数不是栈顶存储的后向函数，则可以按照出栈顺序，让起始节点之前出栈的后向函数先出栈，不对这些后向函数做计算，从所述起始算子在所述栈中对应的后向函数开始，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，作为下一个出栈的后向函数的后向输入张量，直至所述栈中的函数出栈完毕为止。

如图5所示，沿用上例，起始节点为计算图中前向计算顺序中的算子2，则后向初始张量为c，算子2的后向函数不在栈顶，在栈中，按出栈顺序，在算子2前的还有算子3的后向函数，先使算子3的后向函数出栈，再使算子2的后向函数出栈，将c输入算子2的后向函数中，计算得到算子2的后向输出张量h，作为算子1的后向输入张量，使算子1的后向函数出栈，将h输入算子1的后向函数中，计算得到算子1的后向输出张量i。

S112：根据最终确定的后向输出张量，确定待训练模型的梯度，根据所述梯度调整模型参数。

后向计算的最后一个算子输出的后向输出张量即待训练模型从起始算子开始的梯度，根据该梯度调整模型的参数，以此训练模型。

在本说明书提供的一种实施例中，在训练对文本数据进行分类的文本分类模型的过程中，根据梯度调整文本分类模型中特征提取层、分类层等层的参数，提高分类模型的分类准确性或专用性等。在训练对法律文书中的罪名进行识别的命名实体识别模型的过程中，可以根据梯度调整命名实体识别模型中特征提取层的参数，提高实体识别模型的分类准确性。

从上述方法可以看出，本方法确定了待训练模型计算图中的各算子，确定待训练模型的输入，并按照计算图的前向计算顺序，通过各算子的前向函数确定各算子的前向输出张量，将各算子的后向函数压入栈中，存储各算子的前向输出张量以及各算子的后向函数在所述栈中的指针位置。响应于后向计算的指令，确定后向计算过程中的起始算子，将存储的起始算子的前向输出张量，作为后向初始张量，从所述起始算子在栈中对应的后向函数开始，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，直至所述栈中的函数出栈完毕为止。根据最终确定的后向输出张量，确定待训练模型的梯度，根据该梯度调整模型参数。

本方法将后向函数按照前向计算的顺序入栈存储，并通过存储后向函数在栈中的位置与前向输出张量的方式，将前向输出张量与后向函数绑定，既能够在前向计算的过程中构建后向计算图的逻辑，又隐式地维护了前向计算与后向计算之间的依赖联系，使得后向计算确定梯度时的速度和效率得以提高，能够更好的进行模型训练。

并且，相较于现有模型训练过程，各算子输出的中间计算结果（即，前向输出张量）仅用于后续算子的计算不同。本说明书存储前向输出张量，使得在需要计算模型的局部梯度时，不需要重新进行前向计算，重新确定中间计算过程中算子的前向输出张量，节省了计算资源的同时提高了计算效率。

而相比于简单的全量存储各算子的前向输出张量的方法，虽然无需在计算模型的局部梯度时重新计算，但是还需要额外确定模型对应的计算图。在后向计算时根据计算图反推算子之间的调用逻辑，或者需要额外存储算子的调用关系。使得数据存储压力增加的同时，也使方法实现更为复杂，计算效率降低。

而通过本说明书提供的压栈出栈方式维护前向计算与后向计算之间的依赖联系，不仅可以减少数据存储量，而且无需模型对应的计算图。实质上隐式的维护了算子间的调用逻辑，而且无需确定这种调用逻辑是什么样的，直接出栈使用后向函数进行计算即可。

另外，针对后向计算确定梯度的过程，当确定了后向计算过程中的起始算子后，通常只需保留该算子的前向输出张量即可，其他算子的前向输出张量便不再需要，可释放内存空间中存储的其他算子的前向输出张量。但是，有一些特殊的算子，如Relu 算子，该算子可能并不是后向计算过程中的起始算子，但通过该算子的后向函数计算时，可能会用到该算子的前向函数计算得到的前向输出张量。在面对这种算子时，现有存储全量前向输出张量的方法，在前向输出张量与后向函数之间采用共享指针的方式保存对方的指针，虽然建立了二者之间的联系，但前向输出张量是否被释放内存空间依赖于后向函数是否被释放内存空间，后向函数能否被释放内存空间依赖于前向输出张量是否被释放，会造成死锁问题，导致存储前向输入张量与后向函数的内存都无法被释放，基于此本说明书提供一种实施例以解决此问题。

具体如下，针对每个算子，存储的该算子的前向输出张量中包含该算子的后向函数的弱指针，该弱指针用于监测内存空间中的该后向函数是否被释放，也就是说，通过该弱指针可以获得内存资源的观测权。但是，该弱指针并没有共享资源的功能，也就是并不可通过弱指针实现内存空间中资源的调用，也就不会出现死锁问题。如果该算子的后向函数需要被释放，只需通过该算子的后向函数计算得到后向输出张量，并且判断该算子对应的前向输出张量所持有的后向函数的弱指针是否有效即可，无效则表示该后向函数已经被调用完了可以释放内存中存储的数据，因此可将内存中存储对应的前向输出向量释放，而有效则表示可能该后向函数还可能使用到，因此不释放内存里对应的前向输出向量。

进一步地，上述实施例中所述的各算子的前向输入张量与前向输出张量、后向初始张量，以及各算子的后向输入张量与后向输出张量均属于张量。张量是机器学习模型领域中的一种数据结构。后向输入张量与所述后向输出张量定义为二级共享指针类型。

在后向计算过程中，算子之间使用张量的二级指针这一类型来共享后向算子之间的梯度数据，充当数据边的作用。具体过程如下：定义梯度张量为二级共享指针类型。所述后向输出/输入张量需要两层共享指针，是因为具体的后向输出/输入张量在后向图中至少会出现两次，一次是作为上一个算子的输出，一次是作为下一个算子的输入。共享指针的设计方式是确保对上一个后向输出张量的修改能直接在下一个节点的输入处直接生效。

在本说明书提供的一种实施例中，张量由成员变量、条件变量以及成员方法构成。所述成员变量包括常态成员变量、临时成员变量以及后向函数指针变量。常态成员变量即长期存储的变量，当张量是为后向计算的最后一个节点输出的后向输出张量时，将该张量存储为这个变量。临时成员变量即临时缓存或存储的变量，是用来保存后向计算中的中间结果，后向计算过后会释放。后向指针变量是函数指针，表示指向后向计算函数的指针对象。

所述条件变量包括用于判断是否进行后向计算的第一条件变量，用于判断后向计算的起始算子是否是计算图中前向计算顺序的末尾算子的第二条件变量，用于判断后向计算的起始算子是否是用户指定的算子的第三条件变量。

具体地，定义是否需要计算梯度的布尔类型的判断变量，即第一条件变量。只有第一条件变量为真值时，才执行后向计算。定义是否为叶子节点的布尔类型的判断变量，即第二条件变量。只有当前节点是叶子节点，才触发执行后向计算。然后，定义是否为获取节点的布尔类型的判断变量，即第三条件变量。只有当前节点是获取节点，才触发执行后向计算。还可以定义是否保存后向输出张量的布尔类型的判断变量为第四条件变量，表示后向计算过后，是否要把结果存储为常态成员变量。

上述成员方法包括用于获取并存储后向输出张量的第一成员方法，用于获取后向函数的第二成员方法。第一成员方法获取后向梯度计算的结果返回张量共享指针类型的后向计算的常态变量。第二成员方法用于获取后向梯度计算的函数表达式。

在本说明书提供的一种实施例中，根据第四条件变量判断所述后向输出张量中的成员变量是否为常态成员变量，若是，存储所述后向输出张量，若否，释放该后向输出张量占用的存储空间。

可选地，在本说明书提供的一种实施例中，在如步骤S104所述的方法中，也可以针对每个算子。将该算子的后向函数在所述栈中的指针位置存储在该算子的前向输出张量中。

在本说明书提供的一种实施例中，若所述待训练的机器学习模型对应的计算图为多个，则服务器可以针对每个计算图，如步骤S100~112确定所述待训练模型对应该计算图的梯度，根据每个待训练模型对应该计算图的梯度，分别训练待训练模型，得到多个训练好的模型，根据预设标准，从各训练好的模型中确定目标模型。具体地，可以比较各训练好的模型的效果，将效果较好的模型确定为目标模型。如比较分类模型的准确性，将分类结果准确率大于百分之八十的模型确定为目标模型。

在本说明书提供的一种实施例中，还可以在后向梯度回传的过程中，对于没有经过的节点，为了保证其后向计算的正确性，将所述节点的输出张量中作为叶子节点的输出张量的梯度设置为0。后向传播的时，对于没有经过的旁路。即一个算子A的前向过程中输出了两个前向输出张量m和n，如果调用其中一个张量的梯度m，此时除张量m外的另一个张量n的梯度是没有被定义的，因为张量m的梯度被调用，所以后向过程需要过算子A，为保证算子A后向计算的正确性，这里需要将张量n的梯度置为0。

在本说明书提供的一种实施例中，可以采取如下方式处理存在内存泄漏的后向计算图。对于一些算子（比如Relu），在做后向的时候需要用到前向的输出张量，此时，所述前向输出张量里持有后向函数的生命周期，后向函数里持有所述前向输出张量的生命周期，在后向函数执行完成且不保留图的情况下，需要把该后向函数节点删除，该后向函数节点的删除又依赖所述前向输出张量的生命周期的结束，所述前向输出张量的生命周期的结束又依赖后向函数节点生命周期的结束，如果后向函数节点和所述前向输出张量都使用共享指针保存对方的指针，典型的循环引用问题就出现了，两块内存无法销毁，内存泄露。

所述系统采用弱指针解决循环引用问题。所述弱指针获得资源的观测权，但没有共享资源，它的构造不会引起引用计数的增加，它的析构也不会导致引用计数减少，它只是一个静静的观察者。所以处理存在内存泄漏的后向计算图时，所述前向输出张量保存后向函数的弱指针。所述系统持有后向函数的生命周期，这样的话，虽然所述前向输出张量不持有后向函数的生命周期，但是所述系统维护了后向函数。此时，如果某个后向函数节点需要被释放，只需执行所述前向输出张量的梯度，并且判断一下所述前向输出张量所持有的后向函数的弱指针是否有效即可，此时不会执行析构函数。

可选地，可以销毁任务结束的后向计算图。根据后向传播时后向函数表达式上下游的依赖关系决定是否对图中的信息进行销毁。所述图销毁的条件：当与某一个操作相关的操作都已经被销毁后，该操作才能在执行完后向计算后被销毁。

可选地，还可以设计后向计算的调度器。所述后向计算的调度器作为自动求导的执行器，规定了内部的后向计算节点是以什么样的顺序执行，并在后向计算节点执行后处理释放计算图的操作。

在本说明书提供的一种实施例中，设计用户接口用于暴露给用户，该用户接口是用户执行获取梯度的自动梯度接口，包含如下过程：

定义后向的起始梯度张量。后向的起始梯度张量，可以从多个张量开始，结果为存储相应末尾节点的后向输出张量。

定义判断执行过后向后是否保留计算图的变量，如果为假值，第二次调用后向计算时会报错，提示用户计算图已被销毁。

以上为本说明书的一个或多个实施的方法，基于同样的思路，本说明书还提供了相应的模型训练的装置，如图6所示。

图6为本说明书提供的一种的模型训练的装置的示意图，所述装置包括：

确定模块601，用于确定待训练模型以及所述待训练模型对应的计算图；

前向计算模块602，用于根据训练样本确定所述待训练模型的输入，按照所述计算图的前向计算顺序，依次针对所述计算图中每个算子，确定该算子的前向输入张量，并通过该算子的前向函数确定该算子的前向输出张量；

存储模块603，用于将该算子的后向函数压入栈中，存储该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置；

前向计算模块602，还用于将该算子的前向输出张量，作为该算子的下一算子的前向输入张量，继续计算直至确定所述待训练模型输出的训练结果为止；

响应模块604，用于响应于后向计算的指令，根据所述指令从所述计算图中确定后向计算过程中的起始算子，将存储的所述起始算子的前向输出张量，作为后向初始张量；

后向计算模块605，用于根据所述后向初始张量，从所述起始算子在所述栈中对应的后向函数开始，按照出栈顺序，依次针对出栈的每个后向函数，确定该后向函数的后向输入张量，并通过该后向函数确定后向输出张量，作为下一个出栈的后向函数的后向输入张量，直至所述栈中的函数出栈完毕为止；

调整模块606，用于根据最终确定的后向输出张量，确定待训练模型的梯度，根据所述梯度调整模型参数。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的模型训练的方法。

本说明书还提供了图7所示的一种对应于图1的电子设备的示意结构图。如图7所示，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的模型训练的方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练的方法，其特征在于，所述方法包括：

确定待训练模型以及所述待训练模型对应的计算图；

2.如权利要求1所述的方法，其特征在于，所述计算图在前向计算顺序中的第一个算子的前向输入张量是根据训练样本确定出的所述待训练模型的输入；所述后向初始张量是后向计算过程中的起始算子的后向输入张量。

3.如权利要求1所述的方法，其特征在于，存储该算子的前向输出张量以及该算子的后向函数在所述栈中的指针位置，具体包括：

4.如权利要求1所述的方法，其特征在于，张量包括各算子的前向输入张量与前向输出张量、后向初始张量，以及各算子的后向输入张量与后向输出张量。

5.如权利要求4所述的方法，其特征在于，所述张量由成员变量、条件变量以及成员方法构成；

6.如权利要求1所述的方法，其特征在于，所述后向输入张量与所述后向输出张量定义为二级共享指针类型。

7.如权利要求1所述的方法，其特征在于，所述待训练的机器学习模型对应的计算图为多个；

根据预设标准，从各训练好的模型中确定目标模型。

8.如权利要求5所述的方法，其特征在于，所述方法还包括：

若是，存储所述后向输出张量；

若否，释放该后向输出张量占用的存储空间。

9.一种模型训练的装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。

11.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。