CN117808124A

CN117808124A - 一种基于Llama2的文本简化方法

Info

Publication number: CN117808124A
Application number: CN202410225306.0A
Authority: CN
Inventors: 甘健侯; 李子杰; 陈书雨; 王士进; 刘三女牙; 张桂戌; 郑淑英; 周菊香
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29
Also published as: CN117808124B

Abstract

本发明公开了一种基于Llama2的文本简化方法，属于深度学习领域，所述基于Llama2的文本简化方法包括以下步骤：基于预设文本形式，构建包含复杂句、简单句、SARI得分的数据集；根据所述数据集，构建融合所述SARI得分的输入模板；基于LoRA方法和所述输入模板对应的输入数和输出数，对Llama模型进行微调；基于调整后的所述Llama模型，构建简化句生成模板并输出简化结果。通过以上步骤，可以保障语言模型在样本数量较少情况下的训练效果。

Description

一种基于Llama2的文本简化方法

技术领域

本发明涉及深度学习领域，尤其涉及一种基于Llama2的文本简化方法。

背景技术

将深度学习技术应用在语言教学领域当中，可以为不同水平的学习者提供适合个人阅读能力的材料，即通过文本简化系统帮助降低文本的复杂度，以使文本与学习者的阅读水平相匹配，从而提高学习者有效阅读发生的概率。

目前，文本简化领域采用的模型通常基于较大的数据集WikiLarge（一种数据集名称）进行训练，通过给定复杂句子，由模型生成简单句子，根据不同的语言模型的设定计算损失，不断优化语言模型。然而数据集WikiLarge是自动对齐的，同时是由不同人员完成的简化，数据质量相对较差，难以保证语言模型的训练效果。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于Llama2的文本简化方法，旨在解决以往的数据集数据质量相对较差，难以保证语言模型的训练效果的技术问题。

为实现上述目的，本发明提供一种基于Llama2的文本简化方法，所述基于Llama2的文本简化方法包括以下步骤：

基于预设文本形式，构建包含复杂句、简单句、SARI得分的数据集；

根据所述数据集，构建融合所述SARI得分的输入模板；

基于LoRA方法和所述输入模板对应的输入数和输出数，对Llama模型进行微调；

基于调整后的所述Llama模型，构建简化句生成模板并输出简化结果。

可选地，所述基于预设文本形式，构建包含复杂句、简单句、SARI得分的数据集的步骤包括：

获取给定的复杂句和参考集；

基于所述复杂句，评估所述参考集中每一简化句的SARI得分；

根据所述复杂句、所述简化句和所述SARI得分，基于所述预设文本形式，构建所述数据集。

可选地，所述基于所述复杂句，评估所述参考集中每一简化句的SARI得分的步骤包括：

选取待评估简化句；

去除所述参考集中的所述待评估简化句，以形成目标参考集；

根据所述复杂句、所述待评估简化句和所述目标参考集，计算第一操作得分、第二操作得分和第三操作得分；

根据所述第一操作得分、所述第二操作得分和所述第三操作得分，计算所述待评估简化句的SARI得分。

可选地，其特征在于，所述根据所述数据集，构建融合所述SARI得分的输入模板的步骤包括：

构建初始Prompt模板；

将所述数据集中样本对应的第一操作得分、所述第二操作得分和所述第三操作得分，整合至所述Prompt模板，以形成所述输入模板。

可选地，所述基于LoRA方法和所述输入模板对应的输入数和输出数，对Llama模型进行微调的步骤包括：

选取Llama2-7B模型作为基底模型；

基于所述基于LoRA方法和所述输入模板对应的输入数和输出数，对所述Llama2-7B模型进行微调，所述Llama2-7B模型属于所述Llama模型。

可选地，所述基于调整后的所述Llama模型，构建简化句生成模板并输出简化结果的步骤包括：

基于SARI得分、第一操作得分、第二操作得分和第三操作得分，构建所述简化句生成模板；

通过更改所述生成模板中各项得分的数值，以控制所述Llama模型输出所述简化结果。

可选地，所述Llama模型的超参数包括所述SARI得分、所述第一操作得分、所述第二操作得分和所述第三操作得分，所述简化句生成模板为所述Llama模型的超参数输入模板。

可选地，所述第一操作得分、所述第二操作得分和所述第三操作得分分别对应添加操作、保留操作和删除操作。

此外，为实现上述目的，本发明还提供一种基于Llama2的文本简化设备，所述基于Llama2的文本简化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于Llama2的文本简化程序，所述基于Llama2的文本简化程序配置为实现如上所述的基于Llama2的文本简化方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于Llama2的文本简化程序，所述基于Llama2的文本简化程序被处理器执行时实现如上所述的基于Llama2的文本简化方法的步骤。

本发明提出一种基于Llama2的文本简化方法，使用Llama2-7b作为基底模型，即使在样本量较少的情况下，依然可以保持模型具备的语言能力，使用ASSET和Turk数据集中的验证集部分作为本文的全部训练数据，经过处理后的数据为3.2w条，远远小于WikiLarge的29w条，保持了较低的训练代价；将原有（复杂句，简单句）的输入格式改变为（复杂句，简单句，得分）的形式，以Prompt的形式告知模型当前句子的得分，即将每条简化句子的性能好坏输入模型，从而将评价方式注入大模型中，在不改变模型结构、训练目标的情况下，一定程度上实现有监督训练的效果。

附图说明

图1为本发明基于Llama2的文本简化方法第一实施例的流程示意图；

图2为本发明基于Llama2的文本简化方法的细化流程示意图；

图3是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

目前，文本简化领域中取得了较好表现的TST5，是基于早期大模型T5的，相比诸如Llama2等最新的模型，参数和训练数据都较少，其语言能力可能是有限的。此外，文本简化通常使用SARI指标作为评估简化系统性能的主要指标，SARI通过多个人工简化的版本比较简化过程中的ADD、DEL、KEEP操作计算得分，与机器翻译领域常用的BLUE等指标不同的是，BLUE考虑原始句子与目标句子间的匹配程度，而SARI考虑给定复杂句子和参考句子下简化句子的三种操作的质量。在文本简化领域中，现有的训练模式可能存在瓶颈。现有的方法的训练和评估模式是：基于一个较大的数据集WikiLarge训练，然后在ASSET和Turk（TurkCorpus，后简称Turk）上评估。过去的方法采用的语言模型基于Seq2Seq，因此训练的方式是给定复杂句子，系统生成简单句子，然后根据不同的语言模型的设定计算损失，优化模型。影响因素主要是数据集的质量本身和损失计算的方式。就数据集而言，WikiLarge是自动对齐的，同时是由不同人员完成的简化，数据质量相对较差。WikiLarge的数据呈现形式是1：1的，即一个原始句子对应一个简化句子，无法计算SARI指标，故无法评估这些句子简化的优良，因此，目前无法筛选出质量较低的文本对提升数据集整体质量。数据质量差的问题使得模型可能在拟合WikiLarge数据很好的情况，依然得到较低的SARI分数。

然而，数据质量较高的ASSET和Turk数据集，所含有的数据量较少，在上面训练仍然无法得到较好的结果，并且由于其组织方式是1：N（即一个原始句子对应多个简化句子），只能将其处理为多条1：1的形式，每条结果的得分也不一致，这可能会带来对模型效果的影响。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于Llama2的文本简化方法，参照图1，图1为本发明一种基于Llama2的文本简化方法第一实施例的流程示意图。

本实施例中，所述基于Llama2的文本简化方法包括：

步骤S10、基于预设文本形式，构建包含复杂句、简单句、SARI得分的数据集。

在本实施例中，需要构建预设文本形式为[复杂句，简单句，SARI得分]的数据集。即通过对参考集中的每条简化文本进行独立的质量评估，参考集为人工简化的结果。参照图2，在给定复杂句和参考集情况下，使用EASSE工具（一种应用自然语言处理技术评估文本数据的工具）分别评估每条简化文本的SARI（System output Against Reference and with respect to Input，一种用于评估文本重述质量的评价指标）得分。与传统指标只考虑两个句子之间的单词重叠程度不同，SARI综合考虑了系统输出、参考答案和输入句子三个方面的信息，更加全面地评估文本重述质量。SARI得分是一个0到1之间的实数，越接近1表示系统输出的文本重述质量越好。它是通过比较系统输出与参考答案的差异来计算得出的，并且考虑到了输入句子的信息。具体来说，SARI将系统输出、参考答案和输入句子分别映射到三个语义空间中，在这些空间中计算它们之间的相似性，以此来评估系统输出的文本重述质量。

进一步地，从参考集中选取待评估简化句，设其为，需要说明的是，此时被视为简化句，而非参考集中的元素之一。但考虑到仍然是参考集中的元素之一，可能会对评估结果产生影响，因此需要去除参考集中的从而形成新的参考集，即：

（1）

以复杂句、简化句、参考句合集作为输入计算SARI得分，其输出是关于ADD （增添操作）、KEEP（保留操作）、DEL（删除操作）分别对应的第一操作得分,第二操作得分，第三操作得分，然后通过以上三种操作得分计算总的SARI得分。即：

（2）

（3）

按照上述步骤计算各个复杂句下每个人工简化句的SARI得分，每条人工简化句独立地形成训练样本从而构建1：1的训练样本。以ASSET（一种数据集名称）数据为例，该数据的验证集中包括2000条以/>形式呈现的1：10数据，通过以上步骤将会转化为20000条以/>形式呈现的1：1数据。通过以上处理步骤，最终得以构建包含复杂句、简单句、SARI得分的数据集。

在本实施例中，通过构建包含复杂句、简单句、SARI得分的数据集，可以在样本数量较少的情况下，保持较低的训练代价，以便后续保持对于模型的训练效果。

步骤S20、根据所述数据集，构建融合所述SARI得分的输入模板。

在本示例中，还需要构建融合SARI得分并用于文本简化的输入模板。在这一过程中，参照图2，需要先构建一个可整合控制信息的Prompt（提示）模板，在Prompt模板中通过标注训练需求或训练操作，可以使得模型更好地理解需求。

在一可行的实施方式中，本申请以Llama2（一种语言模型名称）模型为需要进行训练的语言模型，构建的Prompt模板采用以下形式：

Prompt："Simplify sentences by adding some words, deleting some words,and keeping some words, making them easier to understand. The score forindicator is {SARI}. The score for the add operation is {ADD}，the score forthe delete operation is {DEL}, and the score for the keep operation is{KEEP}. The original sentence : {input_}\n---\nSimplified: "

由于所依托的Llama2语言模型仅支持英文输入，因此本发明所构建的模板仅能以英文形式呈现，该模板意为：“通过添加一些单词、删除一些单词和保留一些单词来简化句子，使它们更容易理解。指标的分数为｛SARI｝。添加操作的分数是｛ADD｝，删除操作的分数为｛DEL｝，保留操作的分数则为｛KEEP｝。原句子：｛input_｝\n---\n简化结果：”

进一步地，将步骤S10中得到的结果复杂句数据整合进 Prompt模板中形成输入模板X，并将作为标签Y，参照表达式（4）和（5）：

（4）

（5）

所得结果如下所示：

Example Input："Simplify sentences by adding some words, deleting some words,and keeping some words, making them easier to understand. The score for indicator is {}. The score for the add operation is {}, the score for the delete operation is {}, and the score for the keep operation is {}. The original sentence : {}\ n--\ nSimplified: "

Example Label：

以上表述为“通过添加一些单词，删除一些单词，保留一些单词来简化句子，使它们更容易理解。该指标的得分为{}。添加操作的得分为{}，删除操作的得分为{}，保留操作的得分为{}。原句:{}\ n——\ n简化:”。

在本实施例中，通过改变原有（复杂句，简单句）的输入格式改变为（复杂句，简单句，得分）的形式，以Prompt的形式告知模型当前句子的得分，即将每条简化句子的性能好坏输入模型，从而将评价方式注入大模型中，在不改变模型结构、训练目标的情况下，一定程度上实现有监督训练的效果。

步骤S30、基于LoRA方法和所述输入模板对应的输入数和输出数，对Llama模型进行微调。

步骤S40、基于调整后的所述Llama模型，构建简化句生成模板并输出简化结果。

在本实施例中，采用Llama2-7B作为基底模型，Llama2-7B属于Llama模型，在此基础上使用LoRA（Local Outlier Rate and Attribute）方法以步骤S20中得到的输入和输出数对Llama2-7B模型进行微调。LoRA方法是一种用于检测数据集中异常值的方法。结合了局部异常率和属性信息，通过比较每个数据点在其邻近点集中的密度来确定异常值。具体来说，首先计算每个数据点的局部异常率，然后结合属性信息对这些异常率进行调整，最终确定哪些数据点是异常的。

进一步地，参照图2，通过调整后的Llama2-7B，构建简化句生成模板并输出简化结果。对于一个新的复杂句，所生成的简单句设为，在测试阶段是缺失的，因此需要设计新的简化句生成模板。将视作模型的超参数，通过设定不同的数值来控制模型的输出。例如，一个设定的实例是，用该超参数输入模板获取输出即：

（6）

)（7）

其中，Fine-tuned Llama2 （）表示将输入微调好的Llama2模型中获取输出。

在本实施例中，以Prompt的形式告知模型当前句子的得分，即将每条简化句子的性能好坏输入模型，从而将评价方式注入大模型中，在不改变模型结构、训练目标的情况下，一定程度上实现有监督训练的效果。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变形在内。

参照图3，图3为本发明实施例方案涉及的硬件运行环境的基于Llama2的文本简化设备结构示意图。

如图3所示，该基于Llama2的文本简化设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图3中示出的结构并不构成对基于Llama2的文本简化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于Llama2的文本简化程序。

在图3所示的基于Llama2的文本简化设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于Llama2的文本简化设备中的处理器1001、存储器1005可以设置在基于Llama2的文本简化设备中，所述基于Llama2的文本简化设备通过处理器1001调用存储器1005中存储的基于Llama2的文本简化程序，并执行以下步骤：

根据所述数据集，构建融合所述SARI得分的输入模板；

进一步地，所述基于Llama2的文本简化设备通过处理器1001调用存储器1005中存储的基于Llama2的文本简化程序，还执行以下步骤：

获取给定的复杂句和参考集；

基于所述复杂句，评估所述参考集中每一简化句的SARI得分；

选取待评估简化句；

构建初始Prompt模板；

选取Llama2-7B模型作为基底模型；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于Llama2的文本简化方法，其特征在于，所述基于Llama2的文本简化方法包括以下步骤：

根据所述数据集，构建融合所述SARI得分的输入模板；

2.如权利要求1所述的基于Llama2的文本简化方法，其特征在于，所述基于预设文本形式，构建包含复杂句、简单句、SARI得分的数据集的步骤包括：

获取给定的复杂句和参考集；

基于所述复杂句，评估所述参考集中每一简化句的SARI得分；

3.如权利要求2所述的基于Llama2的文本简化方法，其特征在于，所述基于所述复杂句，评估所述参考集中每一简化句的SARI得分的步骤包括：

选取待评估简化句；

4.如权利要求1至3任一项所述的基于Llama2的文本简化方法，其特征在于，所述根据所述数据集，构建融合所述SARI得分的输入模板的步骤包括：

构建初始Prompt模板；

5.如权利要求1所述的基于Llama2的文本简化方法，其特征在于，所述基于LoRA方法和所述输入模板对应的输入数和输出数，对Llama模型进行微调的步骤包括：

选取Llama2-7B模型作为基底模型；

6.如权利要求1所述的基于Llama2的文本简化方法，其特征在于，所述基于调整后的所述Llama模型，构建简化句生成模板并输出简化结果的步骤包括：

7.如权利要求6所述的基于Llama2的文本简化方法，其特征在于，所述Llama模型的超参数包括所述SARI得分、所述第一操作得分、所述第二操作得分和所述第三操作得分，所述简化句生成模板为所述Llama模型的超参数输入模板。

8.如权利要求6所述的基于Llama2的文本简化方法，其特征在于，所述第一操作得分、所述第二操作得分和所述第三操作得分分别对应添加操作、保留操作和删除操作。

9.一种基于Llama2的文本简化设备，其特征在于，所述基于Llama2的文本简化设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于Llama2的文本简化程序，所述基于Llama2的文本简化程序配置为实现如权利要求1至6中任一项所述的基于Llama2的文本简化方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于Llama2的文本简化程序，所述基于Llama2的文本简化程序被处理器执行时实现如权利要求1至6任一项所述的基于Llama2的文本简化方法的步骤。