CN113051897B

CN113051897B - 一种基于Performer结构的GPT2文本自动生成方法

Info

Publication number: CN113051897B
Application number: CN202110570781.8A
Authority: CN
Inventors: 曾曦; 饶志宏; 谢瑞云; 罗殊彦; 肖杰; 王效武; 马军; 王海兮; 曾华圣; 常明芳; 蒋涛
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-10
Anticipated expiration: 2041-05-25
Also published as: CN113051897A

Abstract

本发明提供一种基于Performer结构的GPT2文本自动生成方法，包括如下步骤：步骤一，读取语料集合中的样本文本S并转化为向量ID_S；步骤二，对于输入的语料集合基于步骤一的方法生成字向量矩阵V；步骤三，构建注意力矩阵A；步骤四，根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P；步骤五，将所述样本矩阵P作为输入，进行多层Performer编码计算后得到矩阵P_X；步骤六，基于步骤五的方法构建文本生成模型M；步骤七，利用所述文本生成模型M自动生成文本。本发明能够以更低的硬件成本，生成比GPT2和GPT3模型更优质的长文本信息，且文本生成的效率、准确性、逼真度都较高。

Description

一种基于Performer结构的GPT2文本自动生成方法

技术领域

本发明涉及AI应答系统的文本自动生成技术领域，具体而言，涉及一种基于Performer结构的GPT2文本自动生成方法。

背景技术

随着NLP技术的不断发展，越来越多的人工智能（AI）系统采用了复杂的方法来实现人机交互。从过去的命令输入式、提问选择式、知识库检索式，到目前的语音输入式、自然语言输入式等。为了使用户在交互中对AI无感，对AI的应答系统提出了更高的技术要求，其中文本自动生成能力是核心。在机器学习领域，文本自动生成的常用方法可以基于以下模型：Word2Vec模型、ELMo模型、BERT模型、MT-DNN模型、Transformer XL模型、XLNet模型、GPT模型、GPT2模型、GPT3模型等。GPT全称Generative Pre-Training，出自2018年OpenAI发布的论文《Improving Language Understanding by Generative Pre-Training》，之后2019年，OpenAI对GPT进行了改进，提出了GPT2模型，将训练层数上调至48层，隐层的维度达到1600层，参数达到15亿个。之后在2020年，OpenAI又对GPT2进行了改进，提出了GPT3模型，进一步提高了训练的层数，同时增加了参数的个数，以提高文本生成的真实性。但由于GPT3对资源的要求过高，在实际应该过程中，很难在时间和效率中进行取舍；GPT2虽然对计算资源要求较少，但生成的文本长度有限，在一些特殊场合难以满足用户需求。在GPT2模型的基础上，对文本自动生成算法进行优化，能够在一定程度上解决模型的训练时间长、生成的文本长度短、文本场景的符合度低等问题。

发明内容

本发明旨在提供一种基于Performer结构的GPT2文本自动生成方法，以减少模型的训练周期、降低模型的训练资源、提高文本生成的长度、提高文本的场景符合度。

本发明提供的一种基于Performer结构的GPT2文本自动生成方法，包括如下步骤：

步骤一，读取语料集合中的样本文本S并转化为向量ID_S；

步骤二，对于输入的语料集合基于步骤一的方法生成字向量矩阵V；

步骤三，构建注意力矩阵A；

步骤四，根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P；

步骤五，将所述样本矩阵P作为输入，进行多层Performer编码计算后得到矩阵P_X；

步骤六，基于步骤五的方法构建文本生成模型M；

步骤七，利用所述文本生成模型M自动生成文本。

进一步的，步骤一中所述读取语料集合中的样本文本S并转化为向量ID_S的方法为：

读取语料集合中的一条样本文本S，该样本文本S包含N个字符，则有S={S₁,S₂,…,S_N}；

利用Token函数将所述样本文本S转化为N×1的向量ID_S，该ID_S={ID₁,ID₂,…,ID_N}。

进一步的，步骤二中对于输入的语料集合基于步骤一的方法生成字向量矩阵V的方法为：

利用字嵌入算法Embedding，将输入的语料集合中每一个样本文本S基于步骤一的方法转化为向量ID_S；

再通过查询字典表的方式，得到一个N×d的字向量矩阵V；其中，d表示字向量矩阵V的维数。

进一步的，步骤三中所述构建注意力矩阵A的方法为：注意力矩阵A近似分解为查询矩阵Q′=N×m和键值矩阵K′=m×N；初始查询矩阵Q′和键值矩阵K′的所有值随机生成，从而得到线性的注意力矩阵A。

进一步的，步骤四中所述根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P的方法为：P=A×V=Q′×K′×V。

进一步的，步骤五中所述将所述样本矩阵P作为输入，进行多层Performer编码计算后得到矩阵P_X的方法为：将样本矩阵P作为输入，导入第一层神经网络中进行计算，得到Performer结构的一次训练矩阵P₁；然后经过X次迭代，最终得到矩阵P_X=N×D，其中，D为字典矩阵。

进一步的，步骤六中所述基于步骤五的方法构建文本生成模型M的方法为：利用自回归机制，通过反向传播计算，逐层修改各层注意力矩阵A中的参数，即查询矩阵Q′和键值矩阵K′，然后基于步骤五的方法，通过对样本矩阵P的不断迭代训练，完成文本生成模型M的构建。

进一步的，步骤七中利用所述文本生成模型M自动生成文本的方法为：向所述文本生成模型M任意输入一个文本T₁，经过文本生成模型M计算后，利用Linear函数与Softmax函数得到该文本T₁的字典向量表R中所有字的概率，从该字典向量表R中取k个字作为备选字集合Top_k，Top_k={T₁₁,T₁₂,…,T_1k}；将备选字集合Top_k再输入文本生成模型M得到新的备选字集合Top_k′，如此循环C次后生成文本T_c。

进一步的，所述基于Performer结构的GPT2文本自动生成方法，还包括：

步骤八，对生成的文本进行完整性校验。

进一步的，步骤八中所述对生成的文本进行完整性校验的方法为：利用包括结束符、标点符和表情符的特殊标识作为判断依据，通过文本优化函数T_opt()对生成的文本T_C进行裁剪，使该生成的文本T_C保持语句的完整性。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明在模型架构完成的前提下，能够以更低的硬件成本，生成比GPT2和GPT3模型更优质的长文本信息，且文本生成的效率、准确性、逼真度都较高，为整个NLP（自然语言处理）领域的文本生成技术提升带来契机。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于Performer结构的GPT2文本自动生成方法的流程图。

图2为本发明实施例的具有Performer结构的GPT2模型结构示意图。

图3为Transformer结构与Performer结构的训练过程对比示意图。

图4为本发明实施例的自动生成文本及文本完整性校验的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提出一种基于Performer结构的GPT2文本自动生成方法，包括如下步骤：

步骤一，读取语料集合中的样本文本S并转化为向量ID_S；具体地：

步骤二，对于输入的语料集合基于步骤一的方法生成字向量矩阵V；具体地：

再通过查询字典表的方式，得到一个N×d的字向量矩阵V；其中，d表示字向量矩阵V的维数，本实施例去d=768。

步骤三，构建注意力矩阵A；具体地：

注意力矩阵A近似分解为查询矩阵Q′=N×m和键值矩阵K′=m×N；初始查询矩阵Q′和键值矩阵K′的所有值随机生成，从而得到线性的注意力矩阵A。

步骤四，根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P；具体地：P=A×V=Q′×K′×V。

步骤五，将所述样本矩阵P作为输入，进行多层Performer编码计算后得到矩阵P_X；具体地：

将样本矩阵P作为输入，导入如图2所示的具有Performer结构的GPT2模型的第一层神经网络中进行计算，得到Performer结构的一次训练矩阵P₁；然后经过X（一般取X=12）次迭代，最终得到矩阵P_X=N×D，其中，D为字典矩阵，其大小为768×119547。另外，图2中Linear表示Linear函数，Softmax表示Softmax函数，Add&norm表示求和与归一化，即将上一层神经网络与下一层神经网络的内容进行求和后再进行归一化。矩阵P_X的计算方法如下：

其中，具有Performer结构的GPT2模型是指将现有GPT2模型中的Transformer结构替换成Performer结构得到的GPT2模型。

步骤六，基于步骤五的方法构建文本生成模型M；具体地：利用自回归机制，通过反向传播计算，逐层修改各层注意力矩阵A中的参数，即查询矩阵Q′和键值矩阵K′，然后基于步骤五的方法，通过对样本矩阵P的不断迭代训练，完成文本生成模型M的构建。如图3所示，Transformer结构的注意力模块是由注意力矩阵A和字向量矩阵V进行矩阵乘法而得到，算法复杂度为O（N²d），而Performer结构的注意力矩阵A低秩分解得到解耦矩阵Q′和K′，并按照顺序进行矩阵乘法，算法复杂度为O（Nmd）。

步骤七，利用所述文本生成模型M自动生成文本。如图3所示，具体地：向所述文本生成模型M任意输入一个文本T₁，经过文本生成模型M计算后，利用Linear函数与Softmax函数得到该文本T₁的字典向量表R中所有字的概率，R=119547×1，从该字典向量表R中取k个字作为备选字集合Top_k，Top_k={T₁₁,T₁₂,…,T_1k}；将备选字集合Top_k再输入文本生成模型M得到新的备选字集合Top_k′，如此循环C次（一般取值范围为10～250次）后生成文本T_c。

在一些实施例中，如图4所示，所述基于Performer结构的GPT2文本自动生成方法还包括：

步骤八，对生成的文本进行完整性校验。具体地：利用结束符、标点符和表情符等特殊标识作为判定依据，通过文本优化函数T_opt()对生成的文本T_C进行裁剪，使该生成的文本T_C保持语句的完整性，即T_F=T_opt(T_c)。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Performer结构的GPT2文本自动生成方法，其特征在于，包括如下步骤：

步骤一，读取语料集合中的样本文本S并转化为向量ID_S；

步骤三，构建注意力矩阵A；

步骤六，基于步骤五的方法构建文本生成模型M；

步骤七，利用所述文本生成模型M自动生成文本；

步骤一中所述读取语料集合中的样本文本S并转化为向量ID_S的方法为：

利用Token函数将所述样本文本S转化为N×1的向量ID_S，该ID_S={ID₁,ID₂,…,ID_N}；

步骤二中所述对于输入的语料集合基于步骤一的方法生成字向量矩阵V的方法为：

再通过查询字典表的方式，得到一个N×d的字向量矩阵V；其中，d表示字向量矩阵V的维数；

步骤三中所述构建注意力矩阵A的方法为：注意力矩阵A近似分解为查询矩阵Q′=N×m和键值矩阵K′=m×N；初始查询矩阵Q′和键值矩阵K′的所有值随机生成，从而得到线性的注意力矩阵A；

步骤四中所述根据所述字向量矩阵V和注意力矩阵A计算样本矩阵P的方法为：P=A×V=Q′×K′×V；

步骤五中所述将所述样本矩阵P作为输入，进行多层Performer编码计算后得到矩阵P_X的方法为：将样本矩阵P作为输入，导入第一层神经网络中进行计算，得到Performer结构的一次训练矩阵P₁；然后经过X次迭代，最终得到矩阵P_X=N×D，其中，D为字典矩阵；

步骤六中所述基于步骤五的方法构建文本生成模型M的方法为：利用自回归机制，通过反向传播计算，逐层修改各层注意力矩阵A中的参数，即查询矩阵Q′和键值矩阵K′，然后基于步骤五的方法，通过对样本矩阵P的不断迭代训练，完成文本生成模型M的构建；

步骤七中利用所述文本生成模型M自动生成文本的方法为：向所述文本生成模型M任意输入一个文本T₁，经过文本生成模型M计算后，利用Linear函数与Softmax函数得到该文本T₁的字典向量表R中所有字的概率，从该字典向量表R中取k个字作为备选字集合Top_k，Top_k={T₁₁,T₁₂,…,T_1k}；将备选字集合Top_k再输入文本生成模型M得到新的备选字集合Top_k′，如此循环C次后生成文本T_c，其中，C取值范围为10～250次。

2.根据权利要求1所述的基于Performer结构的GPT2文本自动生成方法，其特征在于，还包括：

步骤八，对生成的文本进行完整性校验。

3.根据权利要求2所述的基于Performer结构的GPT2文本自动生成方法，其特征在于，步骤八中所述对生成的文本进行完整性校验的方法为：利用包括结束符、标点符和表情符的特殊标识作为判断依据，通过文本优化函数T_opt()对生成的文本T_C进行裁剪，使该生成的文本T_C保持语句的完整性。