CN116956835B

CN116956835B - 一种基于预训练语言模型的文书生成方法

Info

Publication number: CN116956835B
Application number: CN202311187670.4A
Authority: CN
Inventors: 申鑫; 纪绿彬; 张旭君; 邓世勇
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2024-01-02
Anticipated expiration: 2043-09-15
Also published as: CN116956835A

Abstract

本发明涉及自动文本生成技术领域，具体公开了一种基于预训练语言模型的文书生成方法，包括步骤把需要生成的文书的提示词输入预训练语言生成多个文本集，用所有文本集训练预设的深度学习模型得到文书生成模型，对每个文本集进行分词，得到每个文本集中的关键词组集合，提取关键词组的词组特征，使关键词组的词组特征与提示词对比得到联合度，根据联合度获得候选词集合，根据候选词集合和文书生成模型生成合并的文书。本发明实现了利用预训练语言模型生成高质量的文本。

Description

一种基于预训练语言模型的文书生成方法

技术领域

本发明涉及自动文本生成技术领域，具体涉及一种基于预训练语言模型的文书生成方法。

背景技术

随着人工智能技术的快速发展，预训练语言模型逐渐用于文书生成。预训练语言模型(Bidirectional Encoder Representations from Transformers，BERT)能够进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。预训练语言模型BERT是一种处理文本信息的方法，其网络架构使用的是多层Transformer结构，其最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network，RNN)和卷积神经网络(Convolutional Neural Networks，CNN)，通过注意力机制(Attention)将任意位置的两个单词的距离转换，有效的解决了自然语言处理(Natural Language Processing，NLP)中棘手的长期依赖问题。

但预训练语言生成模型存在缺陷，尽管预训练语言模型在大规模的文本数据上进行了训练，但它们并没有真正的理解和推理能力，预训练语言生成模型是基于统计模式进行预测和生成文本，而不是真正理解其中的含义。这可能导致模型在某些情况下产生错误或不准确的回答，比如获得的词语的词性或表达不准确，生成的文本与提示词的语义不一致，使得文本语义出现偏差。

发明内容

本发明的目的在于提出一种基于预训练语言模型的文书生成方法，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为实现上述技术目的，本发明技术方案如下：

一种基于预训练语言模型的文书生成方法，所述方法包括以下步骤：

步骤1，把需要生成的文书的提示词输入预训练语言生成多个文本集，用所有文本集训练预设的深度学习模型得到文书生成模型；

步骤2，对每个文本集进行分词，得到每个文本集中的关键词组集合，提取关键词组的词组特征；

步骤3，使关键词组的词组特征与提示词对比得到联合度，根据联合度获得候选词集合；

步骤4，根据候选词集合和文书生成模型生成合并的文书。

进一步地，步骤1中，把需要生成的文书的提示词输入预训练语言生成多个文本集，用所有文本集训练预设的深度学习模型得到文书生成模型的子步骤为：

把需要生成的文书的提示词输入预训练语言生成N个文本集，其中，N≥3；

在生成一个新的文本集后对现有的每个文本集进行比较得到差异值，如果文本集间的差异值大于设定的阈值则重新生成，具体为：

通过预设的双流神经网络模型对文本集提取得到多个关键词组；

分别对提取得到的关键词组进行二进制转换，得到关键词序列；将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算，得到对应的相似值作为不同文本集的相似度；

如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成；

在得到N个文本集后，根据所有N个文本集对预设的深度学习模型进行训练，以使所述深度学习模型学习所有文本集的构造规则，得到训练后的文书生成模型。

进一步地，步骤2中，对每个文本集进行分词，得到每个文本集中的关键词组集合，提取关键词组的词组特征的子步骤为：

通过预设的卷积神经模型提取文本集得到多个关键词组，构建关键词组集合；

把关键词组转换成关键词向量，把关键词向量拼接成关键词向量矩阵，关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果，卷积神经网络模型输出各个类别对应的概率预测结果，每个类别对应的概率预测结果表示关键词组属于该类别的概率，取概率大于设定阈值的类别作为词组特征；

所述词组特征还包括关键词组的连接关系和关键词组的上下文关系。

进一步地，步骤3中，使关键词组的词组特征与提示词对比得到联合度，根据联合度获得候选词集合的子步骤为：

分别计算每个关键词组集合中的关键词组与提示词的联合度：

把不同分类结果的关键词向量矩阵对应的关键词按照在文本集中的顺序分别与提示词进行比较，根据词组特征中关键词组对所在文本集的权重，得到不同文本集中关键词组与提示词的联合度；

所述权重由卷积神经网络模型根据关键词分类结果得到；

将关键词组与提示词的联合度最大的关键词组添加至候选词组集合。

优选地，词组特征还包括关键词组的类别，即不同词组的属性，比如名词，形容词，动词以及其他助词，分别根据不同类别词的权重与提示词比较以提高效率及准确度。

进一步地，步骤4中，根据候选词集合和文书生成模型生成合并的文书的子步骤为：

把候选词组集合输入步骤1得到的文书生成模型，通过所述文书生成模型预设的解码器词组特征进行关键词组合，最终得到拼接的文书。

优选地，其中，本发明中所有未定义的变量，若未有明确定义，均可为人工设置的阈值。

一种基于预训练语言模型的文书生成系统，所述系统包括：

文本生成模块：用于把提示词输入语言生成模型获得文本集；

文本比对模块：用于对新生成的文本集与现有的每个文本集进行比较得到差异值，决定是否丢弃新生成的文本集，具体为：

模型生成模块：用于利用得到的文本集对预设的深度学习模型进行训练，以使所述深度学习模型学习所有文本集的构造规则，得到训练后的文书生成模型；

特征提取模块：用于生成词组特征，具体为：通过预设的卷积神经模型提取文本集得到多个关键词组，构建关键词组集合；把关键词组转换成关键词向量，把关键词向量拼接成关键词向量矩阵，关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果，卷积神经网络模型输出各个类别对应的概率预测结果，每个类别对应的概率预测结果表示关键词组属于该类别的概率，取概率大于设定阈值的类别作为词组特征；

候选词组提取模块：用于根据词组特征从多个文本集中提取候选词组，构造候选词组集合；

文书生成模块：利用文书生成模型和候选词组集合生成拼接的文书。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面提供的所述一种基于预训练语言模型的文书生成方法的步骤。

第四方面，本发明提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本发明提供的所述一种基于预训练语言模型的文书生成方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一实施例提供了一种基于预训练语言模型的文书生成方法，解决了现有的生成方法无法在保证生成文本质量的问题。

一般情况下，预训练语言模型生成的文本结构不稳定，词组存在误用等问题，因为预训练语言模型在训练的时候获输入错误的信息。为了解决这一问题，就必须对生成的文本进行检查，本发明先生成并筛选出结构较为一致的文本，利用了改进的双流神经网络模型的提取了关键词组，提高了识别精确性，对比方法利用了空间距离计算比对不同文本的相似度，避免了现有技术中文本匹配运算量大的问题；

之后对筛选出的文本集训练预设的深度学习模型，得到文书生成模型，优点是可以适应不同文本。之后根据关键词组的词组特征与提示词的联合度筛选提取不同文本集的候选词组，之后生成拼接的文书。

附图说明

图1为本发明提供的一种基于预训练语言模型的文书生成方法的流程图；

图2为本发明一个实施例的一种基于预训练语言模型的文书生成系统结构示意框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及实施例，对本发明进行进一步详尽说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

同样应理解，以下实施例只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限制，本领域的技术人员根据本发明上述内容做出的一些非本质的改进和调整均属于本发明的保护范围。下述示例具体的工艺参数等也仅是合适范围内的一个示例，即本领域技术人员可以通过本文的说明做合适的范围内选择，而并非要限定于下文示例的具体数值。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

以下示例性地说明本发明提供的一种基于预训练语言模型的文书生成方法。

如图1所示为一种基于预训练语言模型的文书生成方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种基于预训练语言模型的文书生成方法，所述方法包括以下步骤：

步骤4，根据候选词集合和文书生成模型生成合并的文书。

所述权重由卷积神经网络模型根据关键词分类结果得到；

如图2所示是本发明一个实施例的一种基于预训练语言模型的文书生成系统结构示意框图。

一种基于预训练语言模型的文书生成系统，所述系统包括：

所述基于一种基于预训练语言模型的文书生成系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端服务器等计算设备中。所述一种基于预训练语言模型的文书生成系统，可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于预训练语言模型的文书生成系统的示例，并不构成对一种基于预训练语言模型的文书生成系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于预训练语言模型的文书生成系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于预训练语言模型的文书生成系统运行系统的控制中心，利用各种接口和线路连接整个一种基于预训练语言模型的文书生成系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于预训练语言模型的文书生成系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)。此外，存储器可以包括随机存取存储器(RAM，Random AccessMemory)，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型。

Claims

1.一种基于预训练语言模型的文书生成方法，其特征在于，所述方法包括以下步骤：

步骤1，把需要生成的文书的提示词输入预训练语言模型生成多个文本集，用所有文本集训练预设的深度学习模型得到文书生成模型；

步骤4，根据候选词集合和文书生成模型生成合并的文书；

步骤3中，使关键词组的词组特征与提示词对比得到联合度，根据联合度获得候选词集合的子步骤为：

所述权重由卷积神经网络模型根据关键词分类结果得到；

将关键词组与提示词的联合度最大的关键词组添加至候选词集合；

步骤4中，根据候选词集合和文书生成模型生成合并的文书的子步骤为：

把候选词集合输入步骤1得到的文书生成模型，通过文书生成模型中预设的解码器对词组特征进行关键词组合，最终得到合并的文书。

2.根据权利要求1所述的一种基于预训练语言模型的文书生成方法，其特征在于，步骤1中，把需要生成的文书的提示词输入预训练语言模型生成多个文本集，用所有文本集训练预设的深度学习模型得到文书生成模型的子步骤为：

把需要生成的文书的提示词输入预训练语言模型生成N个文本集，其中，N≥3；

在生成一个新的文本集后对现有的每个文本集进行比较得到差异值，如果文本集间的差异值小于设定的阈值则重新生成，具体为：

3.根据权利要求1所述的一种基于预训练语言模型的文书生成方法，其特征在于，步骤2中，对每个文本集进行分词，得到每个文本集中的关键词组集合，提取关键词组的词组特征的子步骤为：

通过预设的卷积神经模型提取文本集中的多个关键词组，构建关键词组集合；

4.一种基于预训练语言模型的文书生成系统，其特征在于，所述系统包括：

文本生成模块：用于把提示词输入预训练语言模型获得文本集；

特征提取模块：用于生成词组特征，具体为：通过预设的卷积神经模型提取文本集中的多个关键词组，构建关键词组集合；把关键词组转换成关键词向量，把关键词向量拼接成关键词向量矩阵，关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果，卷积神经网络模型输出各个类别对应的概率预测结果，每个类别对应的概率预测结果表示关键词组属于该类别的概率，取概率大于设定阈值的类别作为词组特征；

候选词提取模块：分别计算每个关键词组集合中的关键词组与提示词的联合度：

所述权重由卷积神经网络模型根据关键词分类结果得到；

文书生成模块：把候选词集合输入所述文书生成模型，通过文书生成模型中预设的解码器对词组特征进行关键词组合，最终得到合并的文书。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1~3中任一项所述一种基于预训练语言模型的文书生成方法的步骤。

6.一种电子设备，其特征在于，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1~3中任一项所述一种基于预训练语言模型的文书生成方法的步骤。