CN116245197B

CN116245197B - 一种提升语言模型的训练速率的方法、系统、介质及设备

Info

Publication number: CN116245197B
Application number: CN202310143360.6A
Authority: CN
Inventors: 李田
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-11-07
Anticipated expiration: 2043-02-21
Also published as: CN116245197A

Abstract

本发明属于语言训练领域，尤其涉及一种提升语言模型的训练速率的方法、系统、介质及设备。该方法包括：获取多条语言模型训练样本，将多条训练样本进行拼接，生成与拼接结果对应的向量；基于所述向量生成掩码矩阵，将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理，生成计算矩阵；基于所述语言模型的训练需求，在进行注意力计算时调取所述计算矩阵进行计算，完成所述语言模型的训练。本发明能够达到预训练但是相互之间又不会产生信息泄漏的办法，来极大的加速预训练速度，同时缓解极少数长句所导致的长尾数据训练不充分的问题的效果。

Description

一种提升语言模型的训练速率的方法、系统、介质及设备

技术领域

本发明属于语言训练领域，尤其涉及一种提升语言模型的训练速率的方法、系统、介质及设备。

背景技术

随着deeplearning在文本领域的日益兴盛，无数的文本处理，文本分类，实体抽取等任务均逐步从原先的规则切换至deeplearning方案。并且随着transformer架构的普及，工业界越来越多的业务开始全套依赖语言模型+下游任务finetune的训练方式来满足业务上的需求。

目前无数学术和工业界的实例已证明，面向特定领域的任务训练，最好优先先面向特定领域进行语言模型的预训练，而非直接使用Google或Huggingface提供的通用的预训练模型。由于语言模型训练本身无论是MLM还是NSP还是生成式训练均无需任何外部标注，因此只需要收集足够多的特定领域样本即可开始特定领域的语言模型预训练，并且训练完成后该语言模型可在特定领域的任何下游任务上使用。

目前的语言模型训练为固定batchsize训练，batchsize为32及每一行一条文本样本，一共32条。语言模型常见的maxlength设置为128或384，每条样本长度不够maxlength的需要使用padding位置对齐进行补齐。

目前比较常见的语言模型采用transformer架构，输入为input_ids,segment_ids和mask_ids。在segment_ids和mask_ids上对应padding位置也需要补齐。

通用语言模型训练一般采用wikipedia或新闻等数据进行训练，常见的每句话长度为几十。若上NSP预训练任务则每条样本长度翻倍。

但是在社交聊天的场景下，每条文本长度均较短，平均长度不足10.但是又偶尔会有很长的样本。

这种大范围的短文本预训练由于padding位置非常多，因此训练的效率极低，并且语言模型非常容易训练出短句依赖，而导致长句训练不充分，进而导致下游任务效果变差。

发明内容

本发明所要解决的技术问题是提供一种提升语言模型的训练速率的方法、系统、介质及设备。

本发明解决上述技术问题的技术方案如下：一种提升语言模型的训练速率的方法，包括：

步骤1，获取多条用于训练语言模型的训练样本，将多条训练样本进行拼接，得到拼接结果，并生成所述拼接结果对应的向量；

步骤2，基于所述向量生成掩码矩阵，将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理，生成计算矩阵；

步骤3，基于所述语言模型的训练需求，在进行注意力计算时调取所述计算矩阵，完成所述语言模型的训练。

本发明的有益效果是：本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法，来极大的加速预训练速度，同时缓解极少数长句所导致的长尾数据训练不充分的问题。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述向量中的每个元素均为数字，且每个数字均小于阈值，除所述向量中的末尾数字之外的每个数字分别对应一个训练样本，任意两个相邻的数字之间的差值与1的和表示：该数字两个相邻的数字中的前一个数字对应的训练样本的样本长度。

进一步，基于所述向量生成掩码矩阵，包括：

根据任一训练样本的样本长度i，生成该训练样本对应的子矩阵，该训练样本对应的子矩阵为i×i，子矩阵每个元素的值为1；

按照训练样本在向量中的先后顺序，任意两个相邻的训练样本对应的子矩阵，沿前一个训练样本的子矩阵的对角线，进行拼接，得到第一掩码矩阵，将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理，得到掩码矩阵。

进一步，所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为：

将所述掩码矩阵中数字0对应的位置设置为负无穷，将所述掩码矩阵中数字1对应的位置设置为0。

本发明解决上述技术问题的另一种技术方案如下：一种提升语言模型的训练速率的系统，包括：

获取模块用于：获取多条用于训练语言模型的训练样本，将多条训练样本进行拼接，得到拼接结果，并生成所述拼接结果对应的向量；

计算模块用于：基于所述向量生成掩码矩阵，将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理，生成计算矩阵；

训练模块用于：基于所述语言模型的训练需求，在进行注意力计算时调取所述计算矩阵，完成所述语言模型的训练。

进一步，基于所述向量生成掩码矩阵，包括：

本发明解决上述技术问题的另一种技术方案如下：一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述任一项所述的方法。

本发明解决上述技术问题的另一种技术方案如下：一种电子设备，包括上述存储介质、执行上述存储介质内的指令的处理器。

附图说明

图1为本发明一种提升语言模型的训练速率的方法实施例提供的流程示意图；

图2为本发明一种提升语言模型的训练速率的系统实施例提供的结构框架图；

图3为本发明一种提升语言模型的训练速率的方法实施例提供的拼接示意图；

图4为本发明一种提升语言模型的训练速率的方法实施例提供的掩码矩阵示意图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种提升语言模型的训练速率的方法，包括：

在一些可能的实施方式中，本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法，来极大的加速预训练速度，同时缓解极少数长句所导致的长尾数据训练不充分的问题。

需要说明的是，训练速度以倍数的速度进行加速。通用wiki-pedia语句平均长度为108的前提下，若短文本平均长度为6，则同样的样本行规模，采用本文中的训练模式相比于传统的BERT/ROBERTA等训练方式要快18倍，且不受CUDA计算力的限制(因为老训练方式padding位置的计算被彻底浪费了，而本文训练方案可以彻底利用这些被浪费的计算资源)。

大前提：

Transformer结构本身的所有矩阵计算均无关乎序列长度。这是attention本身的设计特性导致的，因此也被部分人诟病说其并没有真实的捕捉建立上下文关联。因此在标准的基于transformer的语言模型中，会有一个positionembedding来输入文本训练信息到模型中。

因此如果将attention的计算进行mask，我们便可以通过将多个不同序列拼接成一个伪序列通过一次计算并用mask对不同序列之间进行相互遮掩，就能拿到多个不同序列的attention结果。遮掩本身并不太占用计算量。

实际操作：

1.如图3所示，将多条样本拼接在一起,并生成一个cu_seq_length的vector(向量)来记录每条样本的样本长度cu_seqLen＝[0,2,5,9,13]；

其中，样本即为文本样本，从任何来源获取的文本都可以用来训练领域语言模型。

文本按顺序放在一条文本中，第一条文本长度为3，即站位0-2，第二条文本长度为4，即站位3-6，第三条文本长度为3，即站位7-9，第四条文本长度为5，即站位10-14。

2.依据cu_seqLen生成mask矩阵，矩阵如图4所示。

3.不同的文本生成的不同的positionembedding也同样是拼接在一起的。

其中，不同语言模型会需要不同类型的positionembedding输入。不论采用什么样的positionembedding输入(例如用[1，2，3，4]来标识positionindex，然后在embeddinglookup成embedding)，多条文本positionindex转换为embedding后直接拼接到一起即可。例如如果采用增量index，并且embedding就是原本数字，第一条样本长度为3,position index为[0,1,2]；第二条样本长度为4，positionindex为[0,1,2,3]，直接拼接在一起就是[0,1,2,0,1,2,3]。

4.在进行attention注意计算时，在softmax之前的attention计算结果中直接依据上述矩阵中1的位置将attention结果设置为-inf。

需注意，1-3步为input设置，4为模型inference逻辑。在transformer架构中，唯一需要引入序列维度的就在attention计算，其他计算均同序列维度无关。该attention为了防止上一条数据同别的数据进行attention计算(现在多条数据被放在了同一条样本中)对于本文本数据的attention保留计算结果，而非本文本的attention计算则设置为-inf.实际计算操作就是将上述cu_seqLenmask中0的部分设置为-inf,1的部分设置为0，然后同attention矩阵相加即可。

5.不论语言模型最终任务为MLM还是NSP，其loss对样本条数进行normalization的时候，需要使用该条拼接样本中真实的样本条数。

其中，MLM，NSP为语言模型的训练任务，分别为完形填空任务和下一句话预测任务。只要是单encoder的语言模型训练任务，其任务输出均与序列维度无关。

例如对于MLM，只需要对应取对应位置的output(例如，第二句话的第三个字计算MLM，则直接取transformeroutput的第五个位置输出(根据上文，第一句话为3个字，因此第二句话第二个字的position为5))同真实字符计算loss即可。

6.正常反传求导梯度下降即可。

综上，本发明核心在于，无需更改任何训练任务或者梯度计算方式，可以将多条文本合并成一条文本直接inference并计算loss，然后直接更新梯度。

多条文本合并为一条文本后，其padding的计算比例被大幅度降低，其每次inference的样本batch个数会有巨幅的提升(尽管从物理上来看batchsize变成了1，但是这一条样本是有很多条样本拼接而成，并且只要有上述mask存在，相互句子的信息就可以隔绝开来)，因此大幅度加速短文本语言模型训练，其加速比关乎训练样本的长度分布。

如果训练一个128长度的bert，V100满载下batchsize为4，文本平均长度为8，那该使用该技术后，虽然batchsize为1，但是这一条样本中可以放128/8＝16条样本，等价于batchsize为16，完成一次epoch的速度相比于batchsize为4提升了4倍。

优选地，在上述任意实施例中，所述向量中的每个元素均为数字，且每个数字均小于阈值，除所述向量中的末尾数字之外的每个数字分别对应一个训练样本，任意两个相邻的数字之间的差值与1的和表示：该数字两个相邻的数字中的前一个数字对应的训练样本的样本长度。

需注意，阈值数字小于语言模型设置的单条最大长度(常见配置为128，384或512)。

优选地，在上述任意实施例中，基于所述向量生成掩码矩阵，包括：

优选地，在上述任意实施例中，所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为：

如图2所示，一种提升语言模型的训练速率的系统，包括：

获取模块100用于：获取多条用于训练语言模型的训练样本，将多条训练样本进行拼接，得到拼接结果，并生成所述拼接结果对应的向量；

计算模块200用于：基于所述向量生成掩码矩阵，将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理，生成计算矩阵；

训练模块300用于：基于所述语言模型的训练需求，在进行注意力计算时调取所述计算矩阵，完成所述语言模型的训练。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种提升语言模型的训练速率的方法，其特征在于，包括：

步骤1，获取多条用于训练语言模型的文本训练样本，将多条文本训练样本进行拼接，得到拼接结果，并生成所述拼接结果对应的向量；

步骤3，基于所述语言模型的训练需求，在进行注意力计算时调取所述计算矩阵，完成所述语言模型的训练；

所述向量中的每个元素均为数字，且每个数字均小于阈值，除所述向量中的末尾数字之外的每个数字分别对应一个文本训练样本，任意两个相邻的数字之间的差值与1的和表示：两个相邻的数字中的前一个数字对应的文本训练样本的样本长度；

基于所述向量生成掩码矩阵，包括：

根据任一文本训练样本的样本长度i，生成该文本训练样本对应的子矩阵，该文本训练样本对应的子矩阵为i×i，子矩阵每个元素的值为1；

按照文本训练样本在向量中的先后顺序，任意两个相邻的文本训练样本对应的子矩阵，沿前一个文本训练样本的子矩阵的对角线，进行拼接，得到第一掩码矩阵，将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理，得到掩码矩阵。

2.根据权利要求1所述的一种提升语言模型的训练速率的方法，其特征在于，所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为：

3.一种提升语言模型的训练速率的系统，其特征在于，包括：

获取模块用于：获取多条用于训练语言模型的文本训练样本，将多条文本训练样本进行拼接，得到拼接结果，并生成所述拼接结果对应的向量；

训练模块用于：基于所述语言模型的训练需求，在进行注意力计算时调取所述计算矩阵，完成所述语言模型的训练；

基于所述向量生成掩码矩阵，包括：

4.根据权利要求3所述的一种提升语言模型的训练速率的系统，其特征在于，所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为：

5.一种存储介质，其特征在于，所述介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1或2所述的方法。

6.一种电子设备，其特征在于，包括权利要求5所述的存储介质、执行所述存储介质内的指令的处理器。