CN116579385A

CN116579385A - Mt5语言模型优化方法及装置、介质、设备

Info

Publication number: CN116579385A
Application number: CN202310437983.4A
Authority: CN
Inventors: 郭冬升; 岳爱珍; 段强; 张铮; 姜凯
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-11

Abstract

本发明提供一种MT5语言模型优化方法及装置、介质、设备。方法包括：在MT5语言模型的编码器中增加至少一个卷积层，以使所述编码器通过所述至少一个卷积层提取文本特征；其中，上一个卷积层的输出信息为下一层卷积层的输入信息，且最后一层卷积层的输出信息为所述MT5语言模型的解码器的输入信息；利用数据集对所述MT5语言模型进行训练，得到优化后的MT5语言模型，以使优化后的MT5语言模型用于摘要生成技术中。本发明通过增加编码器的卷积层，来提高编码器的特征提取能力，从而更好地为解码器生成摘要提供信息。

Description

MT5语言模型优化方法及装置、介质、设备

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种MT5语言模型优化方法及装置、介质、设备。

背景技术

在自然语言处理领域，文本摘要是一种常见的任务，其目的是将长文本压缩为几个句子或短文本，以便更容易地理解和传达文本的主题和内容。传统的文本摘要方法通常基于统计学或规则，其效果受到语言表达能力、摘要生成算法和语言知识库等多种因素的影响，存在诸如信息损失、信息冗余和信息错误等问题。近年来，随着深度学习和神经网络的兴起，基于神经网络的文本摘要技术也得到了广泛关注。

MT5是由Google开发的一种基于Transformer架构的预训练语言模型，能够处理多语言的文本处理任务，包括翻译、摘要生成、语言理解等。在MT5模型中，通过对大量文本语料的预训练，使得模型能够自动学习并捕捉不同语言和语言之间的语义和上下文关系，从而在各种自然语言处理任务中表现出色。然而，MT5模型在短问答摘要生成任务上的表现并不理想，因此对于MT5模型进行改进以适用于短文本摘要生成任务具有重要意义。

发明内容

针对以上至少一个技术问题，本发明实施例提供一种MT5语言模型优化方法及装置、介质、设备。

根据第一方面，本发明实施例提供的MT5语言模型优化方法，包括：

在MT5语言模型的编码器中增加至少一个卷积层，以使所述编码器通过所述至少一个卷积层提取文本特征；其中，上一个卷积层的输出信息为下一层卷积层的输入信息，且最后一层卷积层的输出信息为所述MT5语言模型的解码器的输入信息；

利用数据集对所述MT5语言模型进行训练，得到优化后的MT5语言模型，以使优化后的MT5语言模型用于摘要生成技术中。

根据第二方面，本发明实施例提供的MT5语言模型优化装置，包括：

结构调整模块，用于在MT5语言模型的编码器中增加至少一个卷积层，以使所述编码器通过所述至少一个卷积层提取文本特征；其中，上一个卷积层的输出信息为下一层卷积层的输入信息，且最后一层卷积层的输出信息为所述MT5语言模型的解码器的输入信息；

模型训练模块，用于利用数据集对所述MT5语言模型进行训练，得到优化后的MT5语言模型，以使优化后的MT5语言模型用于摘要生成技术中。

根据第三方面，本发明实施例提供计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行实现第一方面提供的方法。

根据第四方面，本发明实施例提供的计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面提供的方法。

本发明实施例提供的MT5语言模型优化方法及装置、介质、设备，首先在MT5语言模型的编码器中增加至少一个卷积层，以使所述编码器通过所述至少一个卷积层提取文本特征；其中，上一个卷积层的输出信息为下一层卷积层的输入信息，且最后一层卷积层的输出信息为所述MT5语言模型的解码器的输入信息；利用数据集对所述MT5语言模型进行训练，得到优化后的MT5语言模型，以使优化后的MT5语言模型用于摘要生成技术中。可见，本发明实施例通过增加编码器的卷积层，来提高编码器的特征提取能力，从而更好地为解码器生成摘要提供信息。

附图说明

图1为本发明一实施例中MT5语言模型优化方法的流程示意图。

具体实施方式

第一方面，本发明实施例提供一种MT5语言模型优化方法，参见图1，该方法包括如下步骤S110～S120：

S110、在MT5语言模型的编码器中增加至少一个卷积层，以使所述编码器通过所述至少一个卷积层提取文本特征；其中，上一个卷积层的输出信息为下一层卷积层的输入信息，且最后一层卷积层的输出信息为所述MT5语言模型的解码器的输入信息；

可理解的是，S110实际上是对现有的MT5语言模型进行改造的过程。MT5语言模型中包括编码器和解码器，编码器的作用是从文本中提取出文本特征，然后将文本特征输入到解码器中，得到文本摘要。现有的MT5语言模型并不是利用卷积层进行特征提取的，在发明实施例中，在编码器中增加了至少一个卷积层，然后利用卷积层进行特征提取。

例如，增加两个卷积层，上一个卷积层的输入信息为文本，输出信息为文本特征；下一个卷积层的输入信息为上一个卷积层的输出信息，下一个卷积层的输出信息为再次进行特征提取后的文本特征。其中，编码器中最后一个卷积层的输出信息作为解码器的输入信息。

可理解的是，卷积神经网络(即CNN)是一种常见的深度学习模型，其主要用于图像识别和语音识别等任务。CNN具有较好的特征提取能力，能够自动从数据中学习到不同层次的特征表示。对于文本数据而言，通过将文本转化为矩阵形式，可以使用卷积层提取文本的局部特征，进而提高模型的性能。本发明实施例中在编码器中增加卷积层的技术，就是为了提高编码器的特征提取能力，从而更好地为解码器生成摘要提供信息。

本发明实施例通过增加编码器的卷积层，来提高编码器的特征提取能力。卷积层是深度学习中常用的层级之一，其能够自动学习图像或文本等输入数据中的局部特征。在自然语言处理中，卷积层常用于文本分类和序列标注等任务。因此，我们认为增加卷积层能够增强编码器的特征提取能力，从而更好地为解码器生成摘要提供信息。卷积层的方程式如下：

C₁＝Conv1D(X)

其中，Conv1D表示一维卷积层操作，其输入信息为X，输出信息为C_1。接着，我们可以将输出信息C_1传入下一个卷积层，得到更加丰富的特征表示，第k个卷积层的方程式为：

C_k＝Conv1D(C_k-1)

最后，我们将最后一层卷积层的输出信息C_k作为编码器的输出信息，传入解码器进行后续处理。

在一个实施例中，S110中还可以包括：

在每一个卷积层之后增加一个批量归一化层，以实现对该卷积层的输出信息进行批量归一化处理。

也就是说，在一个卷积层进行特征提取之后，还要对提取的文本特征进行批量归一化处理，批量归一化处理有利于后续的处理过程。

在一个实施例中，S110中还可以包括：

在每一个卷积层的批量归一化层之后增加一个激活函数层，以实现对所述批量归一化层的输出信息进行非线性转换处理。

也就是说，在批量归一化层之后增加一个激活函数层，例如，ReLU激活函数，通过激活函数层的激活函数可以实现对批量归一化层的输出信息的非线性转换处理。

在一个实施例中，S110还可以包括：

在所述MT5语言模型的解码器中增加注意力机制层。

可理解的是，注意力机制是一种能够将模型关注的重点从全局向局部转移的技术。在自然语言处理中，注意力机制可以帮助模型更好地关注输入文本中的关键信息。在生成式任务中，比如机器翻译和摘要生成，注意力机制被广泛应用。注意力机制在解码器中被引入，使模型能够自动学习出哪些部分的输入是更为重要的，使得模型更好的关注输入文本中的关键信息，从而更好地生成准确的输出。

进一步的，所述注意力机制层可以为多头注意力机制层。

这样可以使得模型可以更好的关注输入文本中的不同部分。

S120、利用数据集对所述MT5语言模型进行训练，得到优化后的MT5语言模型，以使优化后的MT5语言模型用于摘要生成技术中。

在一个实施例中，S120具体可以包括：

S1、初始化所述至少一个卷积层的参数；

可理解的是，卷积层的参数选择对于模型的性能有着重要的影响，在卷积层的具体参数选择上，可以根据实际情况进行调整。一般来说，卷积层的深度、卷积核的大小、卷积核的数量等参数都会对模型的性能产生影响。卷积核大小决定了模型能够提取的特征的大小，一般选择较小的卷积核可以提取更细节的特征，而较大的卷积核可以提取更高层次的特征。本发明实施例中可以选择3作为卷积核大小。卷积核个数决定了模型能够提取的特征的种类和数量。较少的卷积核个数可能会导致特征提取不充分，而过多的卷积核个数则会增加模型的复杂度。在本发明实施例中可以选择16个卷积核。步幅决定了卷积核每次移动的跨度，一般较小的步幅可以提取更细节的特征，而较大的步幅可以减小模型的计算量。在本发明实施例中可以选择1作为步幅。填充可以在输入序列的两端添加0，可以使得卷积后输出的序列长度和输入序列长度相同，这可以保留输入序列的一些信息。在本发明实施例中，我们建议选择'valid'方式，即不进行填充。

S2、根据数据集，对所述MT5语言模型进行训练；

有关数据集采用，首先可以使用LCSTS数据集进行测试，该数据集包含了各种类型的短文本数据，包括新闻、微博、论坛等，涵盖了多种领域和主题。测试结果显示，本发明实施例优化后的模型能够生成准确、简洁的摘要。其次，还可以进行人工合成数据的测试，通过对数据集中的文本进行删减、替换、重组等操作，生成了一系列有挑战性的短文本提问数据。测试结果表明，本发明实施例优化后的模型能够应对各种复杂的提问情况，生成具有高度概括性和准确性的摘要。

S3、对本次训练完成的MT5语言模型进行性能评估；

S4、根据性能评估结果，确定是否满足使用需求；

若是，则得到优化后的MT5语言模型；

否则，对所述参数进行调整，并返回至S2。

可理解的是，所增加的每一个卷积层中都包括多个参数，在增加卷积层之后，需要对这些参数进行初始化，然后根据数据集对模型进行训练。在每一次训练完成后，对模型进行性能评估。如果性能评估结果表明模型能够满足使用需求，则不需要再进行训练。如果性能评估结果表明模型还不能满足使用需求，则需要对参数进行调整，返回到S2中，重新进行训练。

在一个实施例中，所述对本次训练完成的MT5语言模型进行性能评估，具体可以包括：

计算本次训练完成的MT5语言模型的召回率和冗长程度；

根据所述召回率和所述冗长程度，计算本次训练完成的MT5语言模型的评分值。

其中，召回率即recall，Recall表示生成的摘要中的词或词组占标签数据的百分比。冗长程度即precision，表示句子的冗长程度。评分值即F1-measure为召回率和冗长程度的调和平均值，是评估标准。

在性能测试中，选取常用摘要生成测评方法rouge-1、rouge-2、rouge-L。rouge-1和rouge-2讨论的分别为单个字和词组，rouge-L关注与句子最长公共子序列，从而计算召回率和冗长程度。

下表1为数据集中训练样本和测试样本的数量划分：

表1

数据集	训练	测试	总计
				LCSTS	8000	2000	10000
人工合成数据集	334611	8865	50000

在人工数据集上，准确率达到67％，在LCSTS数据集上，准确率达到81％。

可理解的是，在模型改造时，在编码器中增加了卷积层，在解码器中增加了注意力机制层，通过这种方式可以提高模型的特征提取能力和注意力机制，从而更好地关注输入文本中的关键信息，生成准确的摘要。

可理解的是，本发明实施例优化后的模型能够提高MT5语言模型在短问答摘要生成任务上的性能，使其更适用于实际应用场景。该技术可应用于智能客服、智能搜索、新闻摘要生成、文本摘要提取等领域，为公司带来更多商业价值和竞争优势。

其中，卷积层为多个不同卷积核大小的卷积层组合，以提高特征提取能力。

其中，MT5语言模型为预训练的多语言模型，能够处理来自100多种语言的文本。MT5语言模型是Google在2020年推出的新型语言模型。MT5采用了与BERT类似的Transformer架构，并在此基础上增加了跨语言多任务学习和多语言文本生成等功能。MT5具有较好的语言理解能力和生成能力，被广泛应用于文本分类、命名实体识别、机器翻译等任务。本发明实施例对模型优化后，可以对文本进行编码，并为生成摘要提供语言理解和生成的基础。

其中，本发明实施例优化后的模型的应用场景广泛，主要适用于需要生成短问答摘要的各种领域，包括但不限于以下几个方面：搜索引擎：搜索引擎是人们获取信息的主要途径之一，但是搜索结果往往过于冗长，难以快速定位关键信息。优化后的模型可以应用于搜索引擎中，将搜索结果中的文本生成简洁准确的摘要，帮助用户更快地获取所需信息。新闻媒体：新闻媒体需要处理大量的新闻报道和新闻事件，而读者往往只需要了解新闻事件的关键信息。优化后的模型可以应用于新闻报道中，将新闻报道的文本生成简洁准确的摘要，帮助读者更快地了解新闻事件。电子商务：电子商务平台需要处理大量的商品信息，而消费者往往只需要了解商品的关键信息。优化后的模型可以应用于电子商务平台中，将商品信息的文本生成简洁准确的摘要，帮助消费者更快地了解商品信息。问答系统：问答系统是人们获取信息的重要途径之一，但是回答往往过于冗长，难以快速定位关键信息。优化后的模型可以应用于问答系统中，将回答的文本生成简洁准确的摘要，帮助用户更快地获取答案。总之，优化后的模型的应用场景广泛，可以应用于各个领域，帮助用户更快地获取所需信息，提高信息处理效率。

第二方面，本发明实施例提供一种MT5语言模型优化装置，包括：

在一个实施例中，结构调整模块还用于：在每一个卷积层之后增加一个批量归一化层，以实现对该卷积层的输出信息进行批量归一化处理。

在一个实施例中，结构调整模块还用于：在每一个卷积层的批量归一化层之后增加一个激活函数层，以实现对所述批量归一化层的输出信息进行非线性转换处理。

在一个实施例中，结构调整模块还用于：在所述MT5语言模型的解码器中增加注意力机制层。

在一个实施例中，所述注意力机制层为多头注意力机制层。

在一个实施例中，模型训练模块包括：

初始化单元，用于执行S1、初始化所述至少一个卷积层的参数；

模型训练单元，用于执行S2、根据数据集，对所述MT5语言模型进行训练；

性能评估单元，用于执行S3、对本次训练完成的MT5语言模型进行性能评估；

第一确定单元，用于执行S4、根据性能评估结果，确定是否满足使用需求；若是，则得到优化后的MT5语言模型；否则，对所述参数进行调整，并返回至S2。

在一个实施例中，性能评估单元具体用于：计算本次训练完成的MT5语言模型的召回率和冗长程度；根据所述召回率和所述冗长程度，计算本次训练完成的MT5语言模型的评分值。

可理解的是，本发明实施例提供的装置中有关内容的解释、具体实施方式、有益效果、举例等内容可以参见第一方面提供的方法中的相应部分，此处不再赘述。

第三方面，本发明实施例提供一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面提供的方法。

具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

可理解的是，本发明实施例提供的计算机可读介质中有关内容的解释、具体实施方式、有益效果、举例等内容可以参见第一方面提供的方法中的相应部分，此处不再赘述。

第四方面，本说明书一个实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现执行说明书中任一个实施例中的方法。

可理解的是，本发明实施例提供的计算设备中有关内容的解释、具体实施方式、有益效果、举例等内容可以参见第一方面提供的方法中的相应部分，此处不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种MT5语言模型优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

在所述MT5语言模型的解码器中增加注意力机制层。

5.根据权利要求4所述的方法，其特征在于，所述注意力机制层为多头注意力机制层。

6.根据权利要求1所述的方法，其特征在于，所述利用训练数据集对所述MT5语言模型进行训练，包括：

S1、初始化所述至少一个卷积层的参数；

S2、根据数据集，对所述MT5语言模型进行训练；

S3、对本次训练完成的MT5语言模型进行性能评估；

S4、根据性能评估结果，确定是否满足使用需求；若是，则得到优化后的MT5语言模型；否则，对所述参数进行调整，并返回至S2。

7.根据权利要求6所述的方法，其特征在于，所述对本次训练完成的MT5语言模型进行性能评估，包括：

计算本次训练完成的MT5语言模型的召回率和冗长程度；

8.一种MT5语言模型优化装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行实现实现权利要求1～7中的任一项所述的方法。

10.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1～7中的任一项所述的方法。