CN116306796B

CN116306796B - 模型自生长训练加速方法、装置、电子设备和存储介质

Info

Publication number: CN116306796B
Application number: CN202310558620.6A
Authority: CN
Inventors: 王业全; 姚轶群; 张正
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-15
Anticipated expiration: 2043-05-17
Also published as: CN116306796A

Abstract

本发明公开了模型自生长训练加速方法、装置、电子设备和存储介质，属于人工智能技术领域。所述模型自生长训练加速方法包括，从基础神经网络结构中确定一个或多个生长维度；定义与所确定的每个生长维度相关联的基于掩码的生长算子，并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，以实现模型自生长训练。本发明在模型层面上实现了大模型的自生长加速，支持横向和纵向生长，在通过保值性实现知识继承的同时，降低了预训练的时间和算力成本。

Description

模型自生长训练加速方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及模型自生长训练加速方法、装置、电子设备和存储介质。

背景技术

大模型是一种基于神经网络和自监督学习技术的，在大规模、广泛来源数据集上训练得到的人工智能基础模型。大模型已经在很多自然语言处理、计算机视觉等人工智能领域取得了显著的成功。大模型在使用之前首先需要进行预训练，预训练的目的是使用尽可能多的自监督数据集对模型进行训练，得到单语言、多语言和多模态等各种应用的模型。然而大模型的预训练成本通常较高。典型的模型如语言大模型GPT-3，算力成本超过一千万美元，完整训练一次需要的时间大约为一个月。因此，如何对大模型加速预训练，是节省科研和工程的时间成本和算力成本的一个紧迫问题。

在大模型预训练加速方面，现有技术主要是采用底层硬件、算法优化的方式，模型层面的优化比较少。如图1所示，现有的模型优化例如模型压缩、模型蒸馏、模型剪枝方法等，在训练进程中只能将原始大模型规模缩小以产出小模型，这不但带来精度的损失，降低了保值性，而且会损失后续的扩展性和知识容量。而对于传统的模型自生长方法，主要采用Net2Net实现，该方法保值性的实现严重依赖于初始化时选择的参数，使得初始权重缺乏优化空间；此外，由于保值性本身的非严格特性，在急剧生长的场景下，该方法无法实现完全的知识继承。

发明内容

为了解决现有技术中存在的模型层面上的大模型加速方法效率不高和保值性较低的问题，本发明提供了如下技术方案。

本发明在第一方面提供了一种模型自生长训练加速方法，包括：

从基础神经网络结构中确定一个或多个生长维度；

定义与所确定的每个生长维度相关联的基于掩码的生长算子，并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，以实现模型自生长训练。

优选地，所述生长维度包括所述基础神经网络结构的隐藏层特征宽度、前馈模块的中间层宽度、自注意力模块的头数量以及所述基础神经网络结构的总层数中的任一个或多个。

优选地，所述利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，进一步包括：

根据所确定的生长维度，在基础神经网络结构中增加对应数量的神经元或全连接神经网络层；

将新增神经元或神经网络层所连接的网络权重进行初始化；

利用全0的掩码与所述新增神经元或神经网络层的输出相乘，并在后续的训练中逐渐将掩码递增到1。

优选地，当确定所述生长维度为所述基础神经网络结构的隐藏层特征宽度或前馈模块的中间层宽度时，将对应的生长算子定义为：

，其中，/>为掩码，该掩码与生长后的神经网络输出/>长度相同，在原有的神经元上的/>值为1，新增神经元上/>值为0；即生长后的/>等于原神经网络输出/>与一个全0向量/>的拼接，/>为新增的一层全连接神经网络层的连接权重，/>为生长前的神经网络输入，/>是所述基础神经网络结构中的非线性激活函数，/>和/>分别是生长之后和生长之前的输出神经元数量，即向量/>与/>的长度。

优选地，当确定所述生长维度为自注意力模块的头数量时，将对应的生长算子定义为：

对于原有的头head，将由该头head映射得到的V向量与全1掩码相乘；

对于新增的头head，将由该头head映射得到的V向量上与全0掩码相乘。

优选地，当确定所述生长维度为总层数时，将对应的生长算子定义为：，其中，/>为掩码，对于新增的神经网络层，/>值为0，/>和/>分别为第n层神经网络层的输出和输入。

优选地，在所述基础神经网络结构的层归一化结构中，将归一化均值和方差/>的生长算子定义为：/>，/>，其中，/>为掩码，/>为生长后的神经网络输入，该掩码与输入/>长度相同，为掩码，该掩码与特征长度相同，对原有神经元而言/>为1，对新增神经元则/>为0，为生长后的神经网络输入，/>和/>分别为生长后的归一化均值和方差。

本发明在第二方面提供了一种模型自生长训练加速装置，包括：

生长维度确定单元，用于从基础神经网络结构中确定一个或多个生长维度；

自生长训练单元，用于定义与所确定的每个生长维度相关联的基于掩码的生长算子，并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，以实现模型自生长训练。

本发明第三方面提供了一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行前述第一或第二方面的方法。

本发明第四方面提供了一种存储介质，所述存储介质存储有多条指令，所述多条指令可被处理器读取并执行前述第一或第二方面的方法。

本发明的有益效果是：

本发明的模型自生长训练加速方法和装置，在模型层面上实现了大模型的自生长加速，并且与其他的软件优化、硬件级别的优化等方案完全兼容，可以在此基础上进一步大幅降低预训练的时间和算力成本。模型自生长过程支持横向和纵向生长，能够通过保值性实现知识继承，生长后模型的搜索空间也会变得更小，通过模型的训练能够提升模型性能，并且模型加速框架的保值性不依赖于参数初始化，对未来的模型训练过程提供了重要的兼容性保证和优化空间。

附图说明

图1示出了大模型自生长加速技术与传统模型优化技术的对比示意图。

图2示出了本发明所述的模型自生长训练加速方法的流程图。

图3示出了基础模型架构Transformer神经网络结构示意图。

图4示出了根据本发明将基于掩码的生长算子应用于模型自生长的流程示意图。

图5示出了本发明所述的模型自生长训练加速方法的生长流程实施例。

图6示出了本发明所述的模型自生长训练加速方法与传统方法的评测结果对比示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory，ROM）。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

在预训练中从小模型生长到大模型时，需要继承小模型已经学习到的知识。即对任意输入，小模型和大模型能够给出相同的输出，称为模型生长的保值性。本发明中，提出了一种基于递增掩码的大模型结构生长框架（Masked Structural Growth，MSG）。利用这种统一框架在基础模型的预训练任务的流程中引入多种生长维度的独立生长，支持横向和纵向生长，并对生长流程进行优化，对每个生长维度定义了具有保值性的生长算子，该保值性通过对新增结构进行初始全0的掩码来实现。在后续训练中，掩码由0值逐步增加到1，使新结构充分参与到训练过程中。即使在目前传统方法失效的层归一化（LayerNormalization，LN）结构中，本发明的结构生长框架仍然具有严格的保值性，同时将生长过程的保值性与新参数的初始化解耦合，保留了初始权重的优化空间。

实施例一

如图2所示，本发明第一方面提供了一种模型自生长训练加速方法，包括：

S101、从基础神经网络结构中确定一个或多个生长维度。

图3示出了目前最常用的基础模型架构Transformer神经网络结构示意图。在优选的实施例中，根据Transformer神经网络结构的特性，本发明提出的MSG框架从该网络的结构中确定四个可以生长的维度，分别是隐藏层特征宽度（hidden_size）、前馈模块（图3的Feed Forward）的中间层宽度（ffn_size）、自注意力模块（图3的Multi-Head Attention）的头数量（head_number）以及总层数（layer_number）。模型的生长过程即对上述四个维度中的一个或多个维度进行增长或者扩展的过程。

S102、定义与所确定的每个生长维度相关联的基于掩码的生长算子，并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，以实现模型自生长训练。

为了确保模型生长过程严格的保值性，本发明提出的MSG框架对上述每一种生长维度定义了基于掩码（mask）的生长算子。具体地，步骤S102中将生长算子应用于模型生长的过程如下。图4中示出了通过增加神经元对网络中的层进行横向扩展的情形。该层原有神经元为x1和x2，分别与输入层神经元i1、i2和输出层神经元y1、y2连接，a、b、c、d、o、p、q、r、s和t分别代表各神经元之间的网络连接权重。与图4左侧图所示的现有技术相比，中间图是传统Net2Net方法通过分裂已有权重实现生长过程中的保值，而右侧图中本发明提出的MSG方法则在此基础上通过基于mask的生长算子进一步实现保值，从而支持新权重的任意初始化。

S1021、根据所确定的生长维度，在神经网络结构中增加对应数量的神经元或全连接神经网络整层。

S1022、将新增神经元或神经网络层所连接的网络权重进行任意初始化。

S1023、利用全0的掩码与新增神经元或神经网络层的输出相乘，并在后续的训练中逐渐将掩码值递增到1。

具体地，针对隐藏层特征宽度hidden_size和前馈模块的中间层宽度ffn_size维度，假设生长前后的一层全连接神经网络层的连接权重为分别为和/>，输入为/>，输出由扩展到/>，则上述两个维度的生长算子如下：

(1)。

其中，为掩码，该掩码表示与生长后的神经网络输出/>相同长度的掩码，在原有的神经元上的/>值为1，新增神经元上/>值则为0。/>是所述基础神经网络结构中的非线性激活函数。生长后的/>等于原神经网络输出/>与一个全0向量/>的拼接，/>和/>分别是生长之后和生长之前的输出神经元数量，即向量/>与/>的长度。

如果固定输出不变，输入由/>扩展到/>，由于该层输入一定是其他层的输出，即/>一定具有公式(1)中/>的形式，此时生长前后的输出完全相同：

(2) 。

其中，将掩码由0值逐步增加到1具体包括，在每一次梯度更新之后，将掩码值递增一个固定的增量，使得预设次数的训练之后，掩码值逐步增加到1。以公式（1）为例，掩码的初始值为0，在网络训练时的每一次梯度更新之后，将/>值提升一个固定的增量，如果每次增加1/5000，则在5000步梯度更新之后，将/>值增加到1并保持。

Transformer网络的自注意力模块中，每个头（head）通过不同的连接权重将输入映射为query（Q）、key（K），和value（V）三个向量表示。因此，本发明提出的MSG框架将自注意力模块的头数量head_number的生长算子定义如下：

对于原有的head，在其V向量上乘以全1掩码；

对于新增的head，则在其V向量上乘以全0掩码。

通过将全0的掩码与新增head的value值相乘，保证新head的输出在生长前后对网络没有影响。

对于总层数layer_num的生长算子，本发明提出的MSG框架定义纵向（层数）的生长算子为： (3)。

其中，为掩码，对于新增的神经网络层/>，/>值为0。/>和/>分别为第n层神经网络层的输出和输入。在生长前后，由于新层/>的输出在公式（3）与全0相乘后被跳过，因此网络的输出保持不变。

层归一化是Transformer中的特殊结构，对所有特征表示内部的神经元按照均值和方差进行归一化。本发明的MSG框架在层归一化结构中也具有严格的保值能力。具体地，将归一化均值和方差/>的生长算子定义如下：/>，

(4)。

其中，为掩码，/>为生长后的神经网络输入，该掩码是与/>特征长度相同的掩码，对原有神经元而言/>为1，对新增神经元则/>为0，/>和/>分别为生长后的归一化均值和方差。

所述层归一化算子可以应用于hidden_size，ffn_size这两个维度，作为其生长算子的一部分，保证层归一化的保值性，并且上述层归一化结构的生长可以与两个维度的上述横向生长保持同步。

以上生长算子可以进行任意组合，形成多阶段、多维度的模型生长流程。本发明的MSG方法的模型生长流程的两种规模的示例schl_B和schl_L如图5所示。其中每一阶段的模型规模可以由（hidden_size，ffn_size，head_number，layer_number）四个维度的大小完全表示，k表示1000个梯度更新步数（step）。随着k值从左向右增加，四个维度分别递增，展示出模型的生长过程。例如阶段700k~900k下，模型schl_B的四个维度表示为(768，3072，12，12)，即隐藏层特征宽度为768、前馈模块的中间层宽度为3072、自注意力模块的头数量为12、总层数为12，以此类推。

图6示出了本发明所提出的MSG框架的一个实例在Bert-base和Bert-large两种规模上进行生长预训练（图6的上表和下表分别表示为MSG-SCH1-B和MSG-SCH1-L），并在下游任务上微调后在GLUE任务数据集进行评测的结果（图6的上表为Bert-base，其下表为Bert-large）。FULL-B、N2N-SCH1-B、FULL-L和N2N-SCH1-L均为不同规模的传统训练方法。从上表和下表的wall time（真实时间）列可以看出，本发明的方法相比于不具备自生长的训练方法分别提速80%和120%。在Bert-base规模的预训练上，提速比与目前最优方法持平，且下游性能不下降；在Bert-large规模上，实现了120%提速，显著超越了目前最优方法，且在GLUEAvg、SQuADv1.1等自然语言处理平台的下游任务中呈现出最优性能（每项指标在括号内外的数值分别为三次实验的标准差以及平均值）。在其他平台（如CoLA、SST-2、MRPC、STS-B、QQP、MNLI、RTE）中同样达到优异效果。同时，由于网络权重是被任意初始化的，生长前后的网络输出与网络权重无关，因此该框架的保值性不依赖于参数初始化，对未来的模型训练过程提供了重要的兼容性保证和优化空间。

可以看出，通过本发明的上述模型自生长训练加速方法，在模型层面上实现了大模型的加速，并且与其他的软件优化、硬件级别的模型优化等方案完全兼容，进而可以在此基础上进一步大幅降低预训练成本。本发明的模型自生长过程支持横向和纵向生长，能够通过保值性进行知识继承，完全适应模型的训练过程，生长后模型的搜索空间也会变得更小，因此通过模型的训练也会带来模型性能的提升。本发明的模型自生长训练加速方法的应用范围更广，可以适配到包括视觉、语音、音乐、创作、生物、医学等所有领域的基于Transformer的基础模型。

实施例二

本发明的另一方面还包括与前述实施例一的模型自生长训练加速方法完全对应一致的功能模块架构，即提供了一种模型自生长训练加速装置，包括：

该装置可通过上述实施例一提供的模型自生长训练加速方法实现，具体的实现方式可参见实施例一中的描述，在此不再赘述。

实施例三

本发明还提供了一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行前述实施例一中的任一种方法。其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。处理器可以为中央处理器（Central Processing Unit，CPU）。处理器还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的模型自生长训练加速方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的模型自生长训练加速方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

本发明还提供了一种存储介质，所述存储介质存储有多条指令，所述指令可被处理器加载并执行，以使所述处理器能够执行如实施例一中的任意一种方法。该存储介质可以是有形存储介质，诸如随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种模型自生长训练加速方法，其特征在于，包括：

从用于视觉模型或语音模型的基础神经网络结构中确定一个或多个生长维度；

定义与所确定的每个生长维度相关联的基于掩码的生长算子，并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，以实现模型自生长训练；

所述利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，进一步包括：

将新增神经元或神经网络层所连接的网络权重进行初始化；

利用全0的掩码与所述新增神经元或神经网络层的输出相乘，并在后续的训练中逐渐将掩码递增到1；

其中，所述在后续的训练中逐渐将掩码递增到1，进一步包括：

在网络训练时的每一次梯度更新之后，以固定的增量对掩码值进行递增，使得在预设次数的训练之后，将所述掩码值逐步增加到1并保持；

当确定所述生长维度为自注意力模块的头数量时，将对应的生长算子定义为：

对于新增的头head，将由该头head映射得到的V向量上与全0掩码相乘；

当确定所述生长维度为总层数时，将对应的生长算子定义为：

，

其中，为掩码，对于新增的神经网络层/>，/>值为0，/>和/>分别为第n层神经网络层的输出和输入。

2.根据权利要求1所述的模型自生长训练加速方法，其特征在于，所述生长维度包括所述基础神经网络结构的隐藏层特征宽度、前馈模块的中间层宽度、自注意力模块的头数量以及所述基础神经网络结构的总层数中的任一个或多个。

3.根据权利要求2所述的模型自生长训练加速方法，其特征在于，当确定所述生长维度为所述基础神经网络结构的隐藏层特征宽度或前馈模块的中间层宽度时，将对应的生长算子定义为：

，

其中，为掩码，该掩码与生长后的神经网络输出/>长度相同，在原有的神经元上的/>值为1，新增神经元上/>值为0；即生长后的/>等于原神经网络输出/>与一个全0向量/>的拼接，/>为新增的神经网络层的连接权重，/>为生长前的神经网络输入，/>是所述基础神经网络结构中的非线性激活函数，/>和/>分别是生长之后和生长之前的输出神经元数量，即与/>的长度。

4.根据权利要求1所述的模型自生长训练加速方法，其特征在于，在所述基础神经网络结构的层归一化结构中，将归一化均值和方差/>的生长算子定义为：

，

其中，为掩码，/>为生长后的神经网络输入，该掩码与输入/>长度相同，对原有神经元而言/>为1，对新增神经元则/>为0，为生长后的神经网络输入/>和/>分别为生长后的归一化均值和方差。

5.一种模型自生长训练加速装置，其特征在于，包括：

生长维度确定单元，用于从用于视觉模型或语音模型的基础神经网络结构中确定一个或多个生长维度；

自生长训练单元，用于定义与所确定的每个生长维度相关联的基于掩码的生长算子，并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展，以实现模型自生长训练；

所述自生长训练单元，进一步用于：

将新增神经元或神经网络层所连接的网络权重进行初始化；

，

6.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1至4任一项所述的模型自生长训练加速方法。

7.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1至4任一项所述的模型自生长训练加速方法。