CN114880461A

CN114880461A - 一种结合对比学习和预训练技术的中文新闻文本摘要方法

Info

Publication number: CN114880461A
Application number: CN202210623480.1A
Authority: CN
Inventors: 林鸿飞; 谭金源; 杨亮
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-08-09

Abstract

本发明提出一种结合对比学习和预训练技术的中文新闻文本摘要方法，包括(1)构建对比学习输入数据；(2)使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示，对文本中的句子进行分类打分，抽取包含关键信息的候选句得到候选句集合；(3)将候选句集合输入到结合中文新闻语料微调后的MT5模型中，生成摘要结果；(4)结合AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。本发明能够结合对比学习获取更忠于原文内容的摘要结果；通过结合外部知识，提升预训练模型在新闻文本上的语义表示能力；通过先抽取后生成的摘要方式，使模型充分关注新闻文本中的关键内容，有效提升了模型的可解释性和摘要结果的连续性、可读性。

Description

一种结合对比学习和预训练技术的中文新闻文本摘要方法

技术领域

本发明属于自然语言处理领域，涉及一种基于神经网络的中文新闻文本摘要方法，尤其涉及一种结合对比学习和预训练技术的中文新闻文本摘要方法。

背景技术

在自然语言处理领域，文本摘要技术已经成为了国内外学者研究的热门方向，基于中文新闻语料上的文本摘要技术研究更是成为了摘要研究的重要组成。随着微博、今日头条等社交媒体网络的高速发展，随之而来的大量新闻文本以原文链接的方式出现在社交媒体网络上，因此提出一种有效中文新闻的摘要方法十分重要。使用文本自动摘要技术，能够避免手工实现新闻文本摘要需要耗费大量人力资源的情况，帮助人们从信息海洋中解放，提升文本阅读效率，帮助人们适应信息爆炸时代下的快节奏生活。

现阶段，大多数中文摘要数据集都采用的是新闻文本，主要是因为新闻具有鲜明的文本特征，如语言规范、新闻关键内容主要集中在新闻开头和结尾、标题包含关键内容等，相比于通用领域的文本，较为标准的新闻文本更有利于模型生成摘要。常见的中文新闻摘要数据集包括：NLPCC2015评测任务四的摘要数据集，数据来自于新浪微博；NLPCC2017评测任务三的摘要数据集，数据来自于今日头条；LCSTS摘要数据集，由哈尔滨工业大学深圳研究生院利用微博爬虫收集得到。

到目前为止，常见的文本摘要方法主要有以下三种：抽取式摘要方法、生成式摘要方法以及混合式摘要方法。抽取式摘要方法直接从原文抽取词句作为摘要结果，常用机器学习模型、深度学习模型对原文文本进行打分排序，筛选包含关键内容的摘要结果。如基于无监督的基于迭代图的排名算法提取摘要；如利用人工特征对句子和单词的重要程度进行打分；如基于嵌套树和预训练语言模型的摘要抽取方法。生成式摘要方法通过对输入文本进行一系列的转述、替换等操作，生成不完全来源于原文的摘要结果。如基于序列到序列模型的摘要结果生成；如结合序列到序列模型和注意力机制解决长距离依赖问题；如结合copy机制和coverage机制的指针生成器网络模型。混合式摘要方法通过先抽取后生成的方式融合抽取式摘要方法和生成式摘要方法。如利用强化学习同时训练抽取式模型和生成式模型；如利用一致性损失函数端到端训练两种模型。但是，利用以上三种摘要方法存在摘要结果质量较差、易生成重复内容、易生成虚假内容的问题，无法在中文新闻摘要领域落地施行。

综上所述，如何充分利用中文新闻文本的语义信息，生成重复内容较少的摘要结果，使中文新闻的摘要内容更忠于原文，构建可解释性强、摘要效果好的中文新闻文本摘要模型，使其在中文新闻领域拥有较高的应用价值是现阶段需要解决的问题。

发明内容

为克服现有摘要技术中存在的不足，本发明提供了一种结合对比学习和预训练技术的中文新闻文本摘要方法。该方法首先使用回译、实体替换的方式构建对比学习输入数据；其次使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示，对文本中的句子进行分类打分，抽取包含关键信息的候选句得到候选句集合；然后将得到的候选句集合输入到结合中文新闻语料微调后的MT5模型中，生成摘要结果；最后结合本发明提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。

本发明采取的技术方案是：一种结合对比学习和预训练技术的中文新闻文本摘要方法，包括以下步骤：

使用回译、实体替换的方式构建对比学习输入数据；

使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示，对文本中的句子进行分类，抽取得到候选句集合；

使用抽取得到的候选句集合输入到结合中文新闻语料微调后的MT5预训练模型中，生成摘要结果；

结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。

进一步的，步骤(1)中使用回译、实体替换的方式构建对比学习输入数据包括：

使用翻译软件将中文新闻翻译成英文，然后再次使用翻译软件将翻译得到的英文文本重新翻译成中文，得到回译后的中文新闻文本作为正例数据；使用SWAPENT随机替换新闻文本中的实体，将替换实体后的中文新闻文本作为负例数据。

进一步的，步骤(2)中结合中文新闻语料调整BERT预训练模型包括：

通过爬取多种新闻网站得到中文新闻或寻找开源的中文新闻语料对预训练模型BERT进行调整。

进一步的，步骤(2)中使用BERT预训练模型获取新闻文本的上下文向量表示具体为：

(a)BERT模型主要依据基于WordPiece方法生成的、大小为M的词典C＝{c₁,c₂,…,c_M}，提取长度为N的中文新闻文本序列W＝{w₁,w₂,…,w_N}的向量表示，句子中每个单词对应的词向量具体为：

V_i＝{v_i1,v_i2,…,v_ip} (1)

其中V_i表示句子中的第i个单词，p为词典中词向量维度，v_ip表示句子中的第i个单词的第p维向量；

(b)BERT预训练模型需要获取输入文本序列的向量矩阵D、位置矩阵P和上下句矩阵F，分别记录词向量、词在词典中的位置以及词所属的句子是原文句的上句还是下句；结合三个向量矩阵得到BERT模型的输入向量矩阵Z⁰，具体计算公式为：

Z⁰＝D+P+F (2)

(c)BERT模型采用多个相同的Transformer编码器模块堆叠而成，将输入向量矩阵Z⁰输入到编码器模块中的自注意力子层和全连接子层，得到输出向量矩阵Z¹，所述自注意力子层中的具体计算公式为：

Q^R＝Z^R-1P¹+b¹ (3)

K^R＝Z^R-1P²+b² (4)

V^R＝Z^R-1P³+b³ (5)

其中P¹、P²、P³、b¹、b²、b³为训练得到的注意力机制权重参数，Q^R、K^R、V^R分别为第R个向量输出矩阵中计算得到的Q、K、V的值，O^R为第R个向量输出矩阵中自注意力子层经过softmax归一化操作计算得到的输出矩阵；

(d)将第R个自注意力子层的输出矩阵O^R为输入，经过全连接子层，计算得到文本的上下文向量表示；引入GELUs激活函数的全连接子层的具体计算公式为：

Y^R＝gelu(O^RP⁴+b⁴) (7)

其中P⁴、b⁴为训练得到的注意力机制权重参数。

进一步的，步骤(2)中对文本中的句子进行分类表示具体为：

(a)将利用BERT预训练模型获取的上下文向量h输入到Bi-LSTM中，进一步提取上下文的语义信息，具体计算公式为：

和

表示正向GRU和反向GRU在t时刻的隐层状态向量，分别由当前时刻的输入向量x_t及当前方向上一时刻的隐层状态向量h_t-1、h_t+1得到；将

和

拼接后得到当前时刻隐层状态向量h_t；h_t包含了两个方向上的隐层状态；

(b)利用Bi-LSTM进一步文本获取更高维度的语义信息后，将句向量集合送入到全连接层，判断当前句子是否为候选句；模型结合对比学习，采用损失函数L_ext-CL作为抽取式摘要模型的损失函数，具体计算公式如下：

其中

计算正例对

负例对

的相似度，τ为温度系数，决定对比损失对困难负样本的关注程度。

进一步的，步骤(3)中结合中文新闻语料调整MT5预训练模型包括：

通过新闻网站得到中文新闻或寻找开源的中文新闻语料对MT5预训练模型进行调整，使模型能够获取更好的中文新闻语义表示。

进一步的，步骤(3)中利用MT5预训练模型生成摘要结果中，模型采用抽取得到候选句集合作为MT5预训练模型的输入，通过对新闻文本编码、解码，得到最终的文本摘要结果；

MT5预训练模型采用相对位置嵌入(Relative Position Embeddings)代替绝对位置嵌入，在模型的Attention计算过程中引入相对编码信息，解决模型对文本中单词的位置不敏感的问题，帮助模型区分不同位置的单词。

进一步的，步骤(3)中利用MT5预训练模型生成摘要结果中，模型解码部分引入copy机制，允许模型从原文中直接复制单词或者直接从词表中生成新单词，具体包括：

(a)给定一个长度为N的输入文本序列W＝{w₁,w₂,…,w_N}，在t时刻引入注意力分布a^t调整分布权重，具体计算公式为：

p_ti＝z^Ttanh(H₁h_i+H₂s_t+v₁) (12)

a^t＝softmax(p_ti) (13)

其中z、H₁、H₂、v₁是计算注意力权重时的超参数，h_i是新闻文本中的单词按出现顺序传入编码器框架后得到的隐层状态序列；

(b)利用注意力分布a^t计算t时刻需要关注的文本信息，结合h_i得到加权上下文向量h′_t，具体计算公式为：

h′_t＝∑_ia_tih_i (14)

(c)将上下文向量h′_t和t时刻的解码状态序列s_t的串联结果输入到线性映射中，得到t时刻的预测结果在词典上的分布结果P^voc，具体计算公式为：

P^voc＝softmax(H₃(H₄[s_t,h′_t]+v₂)+v₃) (15)

其中H₁、H₂、v₂、v₃是模型训练得到的超参数，[s_t,h′_t]表示上下文向量h′_t和当前t时刻的解码状态序列s_t的串联结果；

(d)模型通过计算生成概率P^gen，判断t时刻模型需要从原文中复制单词，还是从词表中生成原文中不存在的新单词，具体计算公式为：

其中m₁、m₂、m₃、v₄是模型训练过程中得到的超参数，σ表示sigmoid函数，w_Nt是当前t时刻解码器框架中的输入序列。

进一步的，步骤(3)中利用MT5预训练模型生成摘要结果中，模型解码部分引入coverage机制，避免生成过多的文本冗余内容，提升模型的摘要结果质量，具体包括：

(a)模型在t时刻引入追踪向量c_t，追踪已生成的单词，对已生成的单词添加惩罚系数，避免生成过多的文本冗余内容，具体计算公式为：

c_t＝∑_t‘a_t‘ (17)

(b)模型结合追踪向量后，新的注意力权重分布a_new_t计算公式为：

p_new_ti＝z^Ttanh(H₅h_i+H₆s_t+H₇catch_t+v₅) (18)

a_new_t＝softmax(p_new_ti) (19)

其中z、H₅、H₆、H₇、v₅是计算注意力权重时的超参数；

(c)生成式摘要模型目标损失及coverage机制损失函数计算方法如下：

P(y|x₁,x₂,…,x_n)表示在x₁,x₂,…,x_n已经出现的条件下，生成y的概率；T已经表示所有时刻，min(a_t,c_t)用来获取t时刻注意力权重a_t和t时刻coverage机制得分c_t的较小值。

进一步的，步骤(4)中结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练；具体包括：

结合公式(11)中的抽取式模型损失函数L_ext-CL、公式(20)中的生成式模型损失函数L_abs和公式(21)中的coverage机制损失函数L_cov计算得到AECLoss损失函数；

AECLoss＝α₁L_ext-CL+α₂L_abs+α₃L_cov (22)

α₁、α₂、α₃为模型训练得到的参数。

本发明有益效果是：一种结合对比学习和预训练技术的中文新闻文本摘要方法，包括以下步骤：(1)使用回译、实体替换的方式构建对比学习输入数据，(2)使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示，对文本中的句子进行分类打分，抽取包含关键信息的候选句得到候选句集合；(3)将得到的候选句集合输入到结合中文新闻语料微调后的MT5模型中，生成摘要结果；(4)结合本发明提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。与已有的技术对比，本发明具有以下优点：能够结合对比学习获取更忠于原文内容的摘要结果；通过结合外部知识，提升预训练模型在新闻文本上的语义表示能力；通过先抽取后生成的摘要方式，使模型充分关注新闻文本中的关键内容，有效提升了模型的可解释性和摘要结果的连续性、可读性。

附图说明

图1是本发明方法步骤流程图。

图2是本发明提出的中文新闻文本摘要模型框架图。

具体实施方式

下面结合附图对本发明作进一步说明。

实施例1：如图1所示，结合对比学习和预训练技术的中文新闻文本摘要方法，包括以下步骤：

步骤1、在官方提供的训练数据的基础上，使用回译、实体替换的方式构建对比学习输入数据，以实现数据增强的效果：

(a)使用谷歌翻译软件将中文新闻翻译成英文，然后再次使用谷歌翻译软件将翻译得到的英文文本重新翻译成中文，得到回译后的中文新闻文本作为正例数据。

(b)使用SWAPENT随机替换新闻文本中的实体，可以随机替换文本中人名、位置等不同种类的实体，将替换实体后的中文新闻文本作为负例数据。

步骤2、使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示，对文本中的句子进行分类，抽取得到候选句集合：

本发明结合中文新闻语料微调BERT预训练模型，通过爬取新浪微博、今日头条等新闻网站得到中文新闻或寻找开源的中文新闻语料对预训练模型BERT进行微调，使模型能够获取更好的中文新闻语义表示。

使用BERT预训练模型获取新闻文本的上下文向量：

(a)BERT模型主要依据基于WordPiece方法生成的、大小为M的词典C＝{c₁,c₂,…,c_M+，提取长度为N的中文新闻文本序列W＝{w₁,w₂,…,w_N}的向量表示，句子中每个单词对应的词向量具体为公式(1)。

(b)BERT预训练模型需要获取输入文本序列的向量矩阵D、位置矩阵P和上下句矩阵F，分别记录词向量、词在词典中的位置以及词所属的句子是原文句的上句还是下句。结合三个向量矩阵可以得到BERT模型的输入向量矩阵Z⁰，具体为计算公式(2)。

(c)BERT模型采用多个相同的Transformer编码器模块堆叠而成，将输入向量矩阵Z⁰输入到编码器模块中的自注意力子层和全连接子层，得到输出向量矩阵Z¹，自注意力子层中的具体为计算公式(3)～(6)。

(d)将第R个自注意力子层的输出矩阵O^R为输入，经过全连接子层，计算得到文本的上下文向量表示。引入GELUs激活函数的全连接子层的具体为计算公式(7)。

对文本中的句子进行分类：

(a)将利用BERT预训练模型获取的上下文向量h输入到Bi-LSTM中，进一步提取上下文的语义信息，具体为计算公式(8)～(10)

(b)利用Bi-LSTM进一步文本获取更高维度的语义信息后，将句向量集合送入到全连接层，判断当前句子是否为候选句。模型结合对比学习，采用损失函数L_ext-CL作为抽取式摘要模型的损失函数，具体为计算公式(11)

步骤3、将得到的候选句集合输入到结合中文新闻语料微调后的MT5模型中，生成摘要结果：

利用MT5预训练模型生成摘要结果中，模型采用抽取得到候选句集合作为MT5预训练模型的输入，通过对新闻文本编码、解码，得到最终的文本摘要结果。

利用MT5预训练模型生成摘要结果中，模型解码部分引入copy机制，允许模型从原文中直接复制单词或者直接从词表中生成新单词：

(a)给定一个长度为N的输入文本序列W＝{w₁,w₂,…,w_N}，在t时刻引入注意力分布a^t调整分布权重，具体为计算公式(12)、(13)。

(b)利用注意力分布a^t计算t时刻需要关注的文本信息，结合h_i得到加权上下文向量h′_t，具体为计算公式(14)。

(c)将上下文向量h′_t和t时刻的解码状态序列s_t的串联结果输入到线性映射中，得到t时刻的预测结果在词典上的分布结果P^voc，具体为计算公式(15)。

(d)模型通过计算生成概率P^gen，判断t时刻模型需要从原文中复制单词，还是从词表中生成原文中不存在的新单词，具体为计算公式(16)。

利用MT5预训练模型生成摘要结果中，模型解码部分引入coverage机制，避免生成过多的文本冗余内容，提升模型的摘要结果质量：

(a)模型在t时刻引入追踪向量c_t，追踪已生成的单词，对已生成的单词添加惩罚系数，避免生成过多的文本冗余内容，具体为计算公式(17)；

(b)模型结合追踪向量后，新的注意力权重分布a_new_t计算公式为(18)、(19)。

(c)生成式摘要模型目标损失及coverage机制损失函数计算方法如公式(20)、(21)。

步骤4、结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。具体包括：

为了实现抽取式摘要模型和生成式摘要模型的端到端训练，本发明中定义了一种新的AECLoss损失函数，结合公式(11)中的抽取式模型损失函数L_ext-CL、公式(20)中的生成式模型损失函数L_abs和公式(21)中的coverage机制损失函数L_cov计算得到。计算方法如公式(22)。

AECLoss＝α₁L_ext-CL+α₂L_abs+α₃L_cov (22)

α₁、α₂、α₃为模型训练得到的参数，具体设置为α₁＝3、α₂＝α₃＝1。

本发明方法所采用基于ROUGE的自动化评价指标评估来摘要质量。为了验证本发明提出的模型的有效性，本发明在NLPCC2015task4的微博中文新闻摘要数据集上进行实验，依据评测官方的要求，生成一个不多余60个汉字的摘要，数据集中的数据实例如表1所示。

表1

将本发明提出的模型结果的ROUGE指标与常用的生成式摘要模型(GPT、UniLM)、混合式摘要模型(Ext-Abs-RL、Ext-Abs-Inconsistency Loss)结果的ROUGE指标进行比较，证明精度的提升。生成式摘要模型中，GPT模型是2018年提出的采用单向Transformer(Dncoder)模型结构进行文本生成的预训练模型；UniLM模型是2019年提出的采用序列到序列预训练方式进行训练的预训练模型，可以用做生成任务。混合式摘要模型中，Ext-Abs-RL模型是2018年提出的结合强化学习训练的混合式摘要模型，以生成摘要的ROUGE得分作为反馈，鼓励模型抽取更好的候选摘要句；Ext-Abs-Inconsistency Loss模型是2018年提出的结合Inconsistency Loss的混合式摘要模型，通过减少模型引入的词级注意力和句级注意力的不一致，生成更好的摘要结果。实验结果如表2所示。

表2

从表2的实验结果可以看出，本发明提出的模型相比于常见的生成式摘要模型、混合式摘要模型，在中文新闻摘要任务中，能够得到更高的ROUGE指标，说明提出的模型生成的摘要内容包含更多的关键信息，与标准摘要契合度更高；与现有混合式摘要模型的摘要效果进行对比，可以说明本发明提出的模型结合预训练技术和对比学习，能够捕捉新闻文本特点并获取不同语义子空间的语义表征，有效提升模型的摘要生成结果。

本发明方法具有以下优点：能够结合对比学习获取更忠于原文内容的摘要结果；通过结合外部知识，提升预训练模型在新闻文本上的语义表示能力；通过先抽取后生成的摘要方式，使模型充分关注新闻文本中的关键内容，有效提升了模型的可解释性和摘要结果的连续性、可读性。