CN113971394A

CN113971394A - 文本复述改写系统

Info

Publication number: CN113971394A
Application number: CN202111244556.1A
Authority: CN
Inventors: 王莎棉; 姚天昉
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-25
Anticipated expiration: 2041-10-26

Abstract

一种文本复述改写系统，包括：复述生成模块、相似度检测模块、多样性筛选模块和通顺度检测模块，复述生成模块，基于大规模预训练语言模型采用特定任务的训练集进行生成模型的训练，并根据源语句，进行模型预测处理并输出生成句集合至相似度检测模块，相似度检测模块采用余弦相似度计算生成句集合中的生成句与源语句的相似度，并通过阈值判定其是否为源语句的相似句并输出相似性测筛后的生成句集合至多样性筛选模块，多样性筛选模块进一步筛选生成的短语和源语句相比重叠程度最小的生成句并输出至通顺度检测模块，通顺度检测模块采用大量语料训练通顺度检测模型，通过计算句子困惑度检测生成的句子的通顺程度，得到生成句。

Description

文本复述改写系统

技术领域

本发明涉及的自然语言处理领域，具体是一种文本复述改写系统。

背景技术

复述改写的一个重要意义是实现改写文本的多样性甚至创造性，但往往也很容易造成机器改写后语句不通顺，可读性差，所以后续需要引入文本语义通顺度检测评判语句的合理性。文本语义通顺度检测在其他NLP任务例如机器翻译、文本摘要、问答系统也有重要的作用，因此对通顺度流畅度的研究有重大意义。

现有的文本复述技术未能从句子结构或语序的角度进行复述改写；未能对源句和复述句的句对相似性差异进行同义性判断；同义词的选择未能根据上下文调整其真实语义；所使用的参数量过大导致的复杂低效。

发明内容

本发明针对现有技术存在的上述不足，提出一种文本复述改写系统，通过大型预训练语言模型的自动生成模型，实现了机器自动生成复述句，可以通过句式和词法丰富生成句集合的多样性，并可以通过句向量筛选相似度高的生成句，避免了生成句的单调性和非相似性，且本系统可以检测生成句的通顺度。

本发明是通过以下技术方案实现的：

本发明涉及一种文本复述改写系统，包括：复述生成模块、相似度检测模块、多样性筛选模块和通顺度检测模块，其中：复述生成模块，基于大规模预训练语言模型采用特定任务的训练集进行生成模型的训练，并根据源语句，进行模型预测处理并输出生成句集合至相似度检测模块，相似度检测模块采用余弦相似度计算生成句集合中的生成句与源语句的相似度，并通过阈值判定其是否为源语句的相似句并输出相似性测筛后的生成句集合至多样性筛选模块，多样性筛选模块进一步筛选生成的短语和源语句相比重叠程度最小的生成句并输出至通顺度检测模块，通顺度检测模块采用大量语料训练通顺度检测模型，通过计算句子困惑度检测生成的句子的通顺程度，得到高相似性、高多样性、高流畅性的生成句。

所述的复述是指：“相同语义的不同表达”。从同义词、句法、语法等不同角度出发，包括：细微变化，例如“Work at the office.”“Work at office.”；同义词替换，例如“Howcan I build confidence.”“How can I develop confidence.”；语序更换，例如“Yesterday,I got a present.”“I got a present yesterday.”；句子拆分与合并，例如“I have a friend who is cute.”“I have a friend.She is cute.”；句子结构变换，例如“China grows fast in economy.”“China’s economic growth is fast.”；基于推理的复述，例如“Where is your hometown.”“What cityis your hometown.”

所述的复述生成模块用于将源语句生成对应的生成句集合，包括：模型训练单元和句子生成单元，其中：模型训练单元对基于大规模预训练语言模型的语句生成模型进行训练，句子生成单元将源语句输入训练后的语句生成模型，采用基于集束的随机采样进行相似句生成并输出生成句集合至相似度检测模块。

所述的语句生成模型其结构包括：transformer结构的编码器部分，，有12层编码器，每层的编码器为叠加设置的multi-head-Attention层、Layer Normalization层、feed-forword层和Layer Normalization层，其中：每个multi-head-Attention层有12个Attention，词向量维度是768，每个feed-forward层的大小设置为4H，即词向量的维度H＝768时为3072，H＝1024时为4096。

所述的训练，采用的样本采用lcqmc数据集，是哈工大发表的基于百度问答语料，评判语义相似度的数据集。构建的方式是从百度问答的不同领域中抽取热度较高的相关问题，利用Wasserstein distance的原理进行初步筛选，最后进行人工标注。数据集一共有260028个样本，但由于本文旨在利用源句-同义句对进行训练，所以清洗数据时候将标注为同义句的源句-同义句筛选出来，再转化为计算机所需要的格式。以9：0.5：0.5的比例切分为训练集、验证集、测试集。采用的训练参数使用批训练，批大小为64；采用Adam(AdaptiveMoment Estimation)优化器进行梯度计算，学习率设置为2*10-6，权重衰减率设置为0.01。

所述的基于集束的随机采样是指：每一步只从概率最高的topk个词中采样，并按概率执行随机采样函数，最终返回集合元素总和最大为n的解码序列集合，其中：topk为每个时间步按概率从高到低排序所采样的词数，n为最终返回解码序列集合元素总和的最大个数。

所述的相似度检测模块包括：相似度检测单元，其中：相似度检测单元根据复述生成模块获得的生成句集合，将源句与生成句的在语句生成模型内计算得到的句向量，根据余弦相似度进行相似性计算，以0.9为阈值，得到源语句的相似句集合。

所述的多样性筛选模块包括：多样性筛选单元，其中：多样性筛选单元根据相似度检测模块获得的相似句集合，将源语句与相似句进行词级上的重叠性和语序上的差异性进行综合评价，获取一个多样性评分，按一定的分值获得满足一定多样性的相似句。

所述的通顺度检测模块包括：通顺度检测模型训练单元和通顺度检测单元，其中：通顺度检测模型训练单元基于大语料和n-gram原理训练，通顺度检测单元根据多样性筛选模块获得的相似句集合，根据困惑度原理计算句子的通顺度，按一定的分值得到满足通顺度的的相似句集合。

技术效果

本发明对源句和复述句的句对相似性差异进行同义性判断，从句子级别的向量出发进行相似性计算，其句向量包含了句子的语义信息，进而复述改写，并从词级重叠性、语序和句子结构的角度考虑了多样性。本发明整体解决了现有技术同义词的选择未能根据上下文调整其真实语义以及参数量过大的问题，实现模型的参数共享。

附图说明

图1为本发明系统示意图；

图2为实施例复述改写生成模型生成复述语句的原理图；

图3为实施例流程图。

具体实施方式

如图1所示，为本实施例涉及一种文本复述改写系统，包括：复述生成模块、相似度检测模块、多样性筛选模块和通顺度检测模块，其中：复述生成模块根据源语句，基于大规模预训练语言模型采用特定任务的训练集进行生成模型的训练，并根据源语句，进行模型预测处理并输出生成句集合至相似度检测模块，相似度检测模块采用余弦相似度计算生成句集合中的生成句与源语句的相似度，并通过阈值判定其是否为源语句的相似句并输出相似性测筛后的生成句集合至多样性筛选模块，多样性筛选模块进一步筛选生成的短语和源语句相比重叠程度最小的生成句并输出至通顺度检测模块，通顺度检测模块根据多样性筛选模块获得的相似句集合，根据计算困惑度指数检测生成的句子的通顺程度，按一定的分值得到满足通顺度的的相似句集合。

如图2所示，所述的语句生成模型，模型的输入向量直接是原句(句1)和同义句(句2)的组合，在两句的末尾都加上[sep]，在组合句的开头加上[cls]表示一条样本(句向量)。在训练阶段的Attention矩阵采用特殊Mask遮罩：句1的token间使用双向Attention，所以每个token都可以根据左右方向的上下文获得自身；句2的token间使用单向的Attention，即当前token只能根据句1的token和句2已经生成好的token生成。这种思想等于将seq2seq任务转化为补全句子任务。

训练样本采用相似句对，即seq2seq部分由原句预测相似句的任务构成。

损失函数为seq2seq损失函数和相似句损失函数分类之和。Seq2seq损失函数为目标句序列和生成句序列交叉熵，两者对应的token错开一位。相似句分类损失函数为根据参考句向量度构成的相似度标签矩阵和生成句的相似度矩阵的交叉熵。

所述的语句生成模型采用基于集束的随机采样，以保证文本的多样性、创造性，具体为：每一步只从概率最高的topk个词中采样，并按概率执行随机采样函数，最终返回集合元素总和最大为n的解码序列集合，具体为：在第一步预测后将结果重复n次。在每一步，用模型的预测函数生成当前token为此表中每个词的概率，大小为(1，词表大小)，然后仅保留概率最大的topk个词及其概率。将保留的topk个词归一化得到topk个词对应的概率后，用概率采样函数按照概率大小随机选取下一个生成的token。判断是否有token为句结尾符，如果有token为句结尾符，则存好该已完成序列，该序列不再加入下一步的预测。

复述生成任务的语义判别无法像机器翻译或文本摘要一样可以通过与参考句的词语重叠程度来判定，因为复述原本就是以和源句不同的表达方式出现。所以判别方法需要能对同义词、词序变化、句子结构变化等现象作出合理的量化。

所述的相似度检测模块将源句与生成句的在语句生成模型内计算得到的句向量，采用余弦相似度计算生成句和原句的相似度，两个向量间的余弦相似度的分母是向量的长度乘积，分子是两个向量的点积。

所述的余弦相似度

其中：A、B表示向量，i表示向量元素的下标，n表示向量元素个数，θ表示向量A与向量B之间的夹角。

设定一个阈值判定是否为相似句。由于余弦值的值域恒在[-1,1]之间，所以可以省去归一化步骤。在本实施例中，将相似度阈值设置为0.9。

复述语句的多样性指生成的复述是否多样，例如“北京到上海的距离是多少”的生成句“北京离上海有多远”、“北上相距多少公里”及“北京和上海之间有多少千米”，这些生成句与源句在保证语义相同的基础上保证了表达的多样，所以这些生成句的多样性质量较高。

所述的多样性筛选模块为提高复述的多样性，本实施例用基于n-gram原理的rouge值，计算源句-同义句对的rouge-1、rouge-2、rouge-n，然后用rankscore＝a/rouge-1+b/rouge-2+c/rouge-3(a、b、c为超参数)的方式计算一个排序分数，对生成的同义句集合进行排序。

本实施例采用语言模型计算困惑度(perplexity)来计算通顺度，语言模型通常用来计算句子概率，即计算待生成句子当前词根据先前词被生成的相应概率p(x₁，x₂，x₃，…，x_n)＝p(x₁)p(x₂|x₁)p(x₃|x₁，x₂)…p(x_n|x_n-2，x_n-1)，其中：x₁表示单个词，x₁，x₂，x₃，…，x_n表示由词组成的词序列(句子)，n表示一个词序列(句子)中词的个数。

按照链式规则，举例如下：p(你吃饭了吗)＝p(你)p(吃|你)p(饭|你吃)p(了|吃饭)p(|)p(吗|饭了)，而对于每个p，在语料中的计算方式为：

根据句子概率公式，由于概率p值小于等于1，所以对长度更长的句子，语言模型表现并不利，所以需要根据句子长度进行规划化处理，即计算交叉熵的指数形式的困惑度指数

其中：w₁表示单个词，w₁w₂…w_N表示由词组成的词序列(句子)，N表示一个词序列(句子)中词的个数。

所述的通顺度检测模块使用kenlm(Faster and Smaller Language ModelQueries)，优点是能有效的减少时间和内存花费，线程安全，还可实现智能纠错。由于kenlm输入语料需要个以空格分词，并结合中文语境往往是根据词语而不是单字为最小粒度的情况，通过jieba分词工具对训练语料进行分词，jieba是一款流行的中文分词组件，可实现简单分词、关键词提取、词性标注。

如图3所示，本实施例涉及上述系统的文本复述改写方法，包括以下步骤：

步骤1：采用所述网络结构和lcqmc训练集进行复述生成模型的训练。

步骤2：将待生成语句输入训练好的复述生成模型，获得生成句集合。

步骤3：计算生成句集合中每个句子与源句的相似度，筛选高相似性的生成句。

步骤4：利用多样性计算公式计算生成句的多样性得分，获得高多样性的生成句。

步骤5：利用高效的统计语言模型计算生成句的通顺度，获得高流畅度的生成句。

经过具体实际实验，设置硬件环境为Nvidia GeForce GTX 1080Ti GPUkeras框架。使用批训练，批大小为64；采用Adam(Adaptive Moment Estimation)优化器进行梯度计算，学习率设置为2*10-6，权重衰减率设置为0.01。网络结构词向量维度为768，层数为12，每层Attention个数为12，共有110M个参数，词表个数21128，得到结果如下表所示：

与现有技术相比，本发明实现模型实现参数共享，更通用的文本表示减轻使用单个语言模型的过度拟合，获得更快的收敛。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种文本复述改写系统，其特征在于，包括：复述生成模块、相似度检测模块、多样性筛选模块和通顺度检测模块，其中：复述生成模块，基于大规模预训练语言模型采用特定任务的训练集进行生成模型的训练，并根据源语句，进行模型预测处理并输出生成句集合至相似度检测模块，相似度检测模块采用余弦相似度计算生成句集合中的生成句与源语句的相似度，并通过阈值判定其是否为源语句的相似句并输出相似性测筛后的生成句集合至多样性筛选模块，多样性筛选模块进一步筛选生成的短语和源语句相比重叠程度最小的生成句并输出至通顺度检测模块，通顺度检测模块采用大量语料训练通顺度检测模型，通过计算句子困惑度检测生成的句子的通顺程度，得到最终生成句。

2.根据权利要求1所述的文本复述改写系统，其特征是，所述的复述生成模块包括：模型训练单元和句子生成单元，其中：模型训练单元对基于大规模预训练语言模型的语句生成模型进行训练，句子生成单元将源语句输入训练后的语句生成模型，采用基于集束的随机采样进行相似句生成并输出生成句集合至相似度检测模块。

3.根据权利要求1所述的文本复述改写系统，其特征是，所述的语句生成模型其结构包括：transformer结构的编码器部分，，有12层编码器，每层的编码器为叠加设置的multi-head-Attention层、Layer Normalization层、feed-forword层和Layer Normalization层，其中：每个multi-head-Attention层有12个Attention，词向量维度是768，每个feed-forward层的大小设置为4H，即词向量的维度H＝768时为3072，H＝1024时为4096。

4.根据权利要求1或2或3所述的文本复述改写系统，其特征是，所述的训练，采用的样本采用lcqmc数据集，是哈工大发表的基于百度问答语料，评判语义相似度的数据集，具体为：从百度问答的不同领域中抽取热度较高的相关问题，利用Wasserstein distance的原理进行初步筛选，最后进行人工标注；数据集一共有260028个样本，但由于本文旨在利用源句-同义句对进行训练，所以清洗数据时候将标注为同义句的源句-同义句筛选出来，再转化为计算机所需要的格式；以9：0.5：0.5的比例切分为训练集、验证集、测试集；采用的训练参数使用批训练，批大小为64；采用Adam优化器进行梯度计算，学习率设置为2*10-6，权重衰减率设置为0.01。

5.根据权利要求2所述的文本复述改写系统，其特征是，所述的基于集束的随机采样是指：每一步只从概率最高的topk个词中采样，并按概率执行随机采样函数，最终返回集合元素总和最大为n的解码序列集合，其中：topk为每个时间步按概率从高到低排序所采样的词数，n为最终返回解码序列集合元素总和的最大个数。

6.根据权利要求1或2所述的文本复述改写系统，其特征是，所述的相似度检测模块包括：相似度检测单元，其中：相似度检测单元根据复述生成模块获得的生成句集合，将源句与生成句的在语句生成模型内计算得到的句向量，根据余弦相似度进行相似性计算，以0.9为阈值，得到源语句的相似句集合。

7.根据权利要求1所述的文本复述改写系统，其特征是，所述的多样性筛选模块包括：多样性筛选单元，其中：多样性筛选单元根据相似度检测模块获得的相似句集合，将源语句与相似句进行词级上的重叠性和语序上的差异性进行综合评价，获取一个多样性评分，按一定的分值获得满足一定多样性的相似句。

8.根据权利要求1所述的文本复述改写系统，其特征是，所述的通顺度检测模块包括：通顺度检测模型训练单元和通顺度检测单元，其中：通顺度检测模型训练单元基于大语料和n-gram原理训练，通顺度检测单元根据多样性筛选模块获得的相似句集合，根据困惑度原理计算句子的通顺度，按一定的分值得到满足通顺度的的相似句集合。