CN115795026A

CN115795026A - 基于对比学习的中文文本摘要生成方法

Info

Publication number: CN115795026A
Application number: CN202211585154.2A
Authority: CN
Inventors: 黄文明; 周耀威
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-14

Abstract

本发明公开了一种基于对比学习的中文文本摘要生成方法，包括获得摘要生成和评估模型，以及调用模型生成摘要两个阶段。第一阶段包括数据预处理；构建摘要生成模型；构建摘要评估模型；训练摘要生成模型；训练摘要评估模型。第二阶段包括：接受用户输入的文本；调用摘要生成模型生成候选摘要；调用摘要评估模型生成最终摘要。第一阶段分别基于最大似然估计来训练摘要生成模型以及基于对比学习来训练摘要评估模型。第二阶段，对于用户输入的文本，首先经过摘要生成模型生成候选摘要，再通过摘要评估模型生成最终摘要。本发明方法实现相对简单，应用性强，尤其在自动报告生成等方面将会有很大的应用。

Description

基于对比学习的中文文本摘要生成方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及一种基于对比学习的中文文本摘要生成方法。

背景技术

深度学习使人工智能研究取得了突破性的进展，它结束了人工智能长达十年未能有突破的局面，并迅速在业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟)，作为通用的人工智能技术，可以应对各种情况和问题，已在计算机视觉、语音识别等领域得到了广泛应用，在自然语言处理领域也取得了一定的成效。深度学习是实现人工智能最有效，也是取得成效最大的实施方法。

随着近几年文本信息的爆发式增长，人们每天能接触到海量的文本信息，如新闻、博客、论文、微博等。从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动文本摘要提供了一个高效的解决方案。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。自动文本摘要有非常多的应用场景，如自动报告生成、新闻标题生成、搜索结果预览等。此外，自动文本摘要也可以为下游任务提供支持。自动文本摘要可分为两类，分别是抽取式和生成式。

抽取式方法就是从原文中选取关键词、关键句组成摘要，这种方法的好处在于简单实用，不会完全脱离于文档本身，不容易产生完全偏离文章主旨的点。传统的抽取式摘要方法使用图方法、聚类等方式完成无监督摘要，而目前的基于神经网络的方法往往将问题建模为序列标注和句子排序两类任务。

抽取式摘要在语法、句法上有一定的保证，但是也面临了一定的问题，例如：内容选择错误、连贯性差、灵活性差等问题。生成式摘要允许摘要中包括新的词语或短语，灵活性高，随着近几年神经网络模型的发展，序列到序列模型被广泛的用于生成式摘要任务，并取得一定的成果。

然而，在文本摘要生成过程中，生成式文本摘要会面临严重的曝光偏差问题。

当前的序列到序列模型通常在极大似然估计的框架下以teach-forcing的方式得到训练，众所周知，序列到序列模型存在着目标函数和评价指标不一致的问题，因为目标函数计算的是局部的，字符级别的损失，而ROUGE这类评价指标会计算模型生成的摘要与参考摘要整体上的相似性。此外，序列到序列模型本身的训练和测试阶段也是不一致的，在测试阶段，模型会以自回归的方式来生成摘要，在这个生成过程中存在错误累加的问题，这个问题也被广泛地称为曝光偏差问题。

发明内容

在人工智能飞速发展的今天，本发明针对现有生成式文本摘要自动生成方法的缺陷，提供了一种基于对比学习的中文文本摘要生成方法，首先训练一个基于MLE损失的文本摘要生成模型来生成候选摘要，然后通过基于对比损失的评估模型对候选摘要进行打分排序来选择最终摘要。

为实现上述目的，本发明一种基于对比学习的中文文本摘要生成方法，包括两个阶段：

阶段1：获得摘要生成模型和评估模型；

阶段2：调用模型生成摘要。

阶段1所述获得摘要生成模型和评估模型，包括以下步骤：

步骤1.1)数据预处理；

步骤1.2)构建摘要生成模型；

步骤1.3)构建摘要评估模型；

步骤1.4)训练摘要生成模型；

步骤1.5)训练摘要评估模型。

阶段2所述调用模型生成摘要，包括以下步骤：

步骤2.1)接受用户输入的文本；

步骤2.2)调用摘要生成模型生成候选摘要；

步骤2.3)调用摘要评估模型生成最终摘要。

本发明方法，阶段1步骤1.1)所述数据预处理，包括四个过程，读取文本并去噪处理；过滤掉200字符以下的语句；分词分句；文本转码。

本发明方法，阶段1步骤1.2)所述构建摘要生成模型，利用改进的Transformer来构建摘要生成模型，该模型包括编码Encoder和解码Decoder两个阶段，在标准的Transformer Encoder输出上使用了动态卷积来筛选信息；

所述编码阶段：编码器由标准的Transformer编码器和动态卷积网络构成，Transformer编码器由6个相同的编码块堆叠而成，每一层都包含一个多头注意力层(Multi-Head Attention Layer)和一个前向反馈层(Feed Forward Layer)；

编码首先，将生成的词向量组成文本矩阵X作为输入，经过6个相同的编码块处理后，输出文本的固定长度向量H，计算公式如下：

H＝Transformer_Encoder(X)

式中，X为词向量文本矩阵；

之后，固定长度向量H通过动态卷积来提取序列中局部文本的深层特征和潜在词消息，尤其是n-gram特征，具体的来说，通过在LightConv上构建动态卷积来解决问题，卷积后的向量C计算公式如下：

C＝DynamicConv(H,i,c)＝LightConv(H,f(H_i)_h,:,i,c)

式中，c表示通道，i表示位置，h表示c所属的头位置，f是一个线性映射f:R^d→R^H*k，可用具有学习权重W^Q∈R^H*k*d的简单线性模块对f进行建模。

所述解码阶段：解码器采用标准的Transformer解码器，由6个相同的解码块堆叠而成，每个解码块比编码器中多了一个Encoder-Decoder Attention，解码器在接收到编码器输出的文本向量表达后能够生成最后的隐藏输出向量A，计算公式如下：

A＝Transformer_Decoder(C)

式中，C为卷积后的向量；最后，将解码器Decoder顶层输出的A向量，再经过softmax计算得到模型最终输出，计算公式如下：

P_vocab＝softmax(W_tA+b_t)

式中，W_t为权重矩阵，A为隐藏输出向量，b_t为偏置项。

本发明方法，阶段1步骤1.3)所述摘要评估模型构建，使用中文预训练模型Roberta作为摘要评估模型。

本发明方法，阶段1步骤1.4)所述训练摘要生成模型，包括根据经验设置合适的超参数，对模型进行多次迭代训练，在训练过程中引入负对数似然来最小化损失函数，若t时刻解码器的预测词语为w_t，则模型损失计算公式如下：

loss_t＝-logp(w_t)。

本发明方法，阶段1步骤1.5)所述训练摘要评估模型，采用对比学习的方法来训练评估模型，引入了对比损失，公式如下：

式中，

代表候选摘要，

代表生成的候选摘要，按照ROUGE得分降序排序，D代表源文档，h代表评估模型Roberta，λ_ij＝(j-i)*λ是一个超参数，表示相关边界。

本发明方法，阶段2步骤2.2)所述调用摘要生成模型生成候选摘要，在进行解码时使用beam search来生成多个候选摘要。

本发明方法，阶段2步骤2.3)所述调用摘要评估模型，通过对步骤2.2)生成的多个候选摘要，使用评估模型Roberta分别对源文本和候选摘要进行编码，并计算各自[CLS]的余弦相似度，将其作为候选摘要的打分，最终模型输出的摘要S为获得最高分的候选摘要，S的计算公式如下：

本发明方法在获得文本摘要生成模型阶段采用先进的深度学习算法模型，模型训练过程更加自动化，免去了过多的人工干预，使得文本摘要生成更加自动化，训练过程采用一系列训练策略，使得文本摘要生成模型生成的文本可读性更强；本发明提供的一种基于对比学习的文本摘要自动生成方法能够自动生成文本摘要，方法实现相对简单，不需要人为过多干预，应用性强，尤其在新闻标题生成方面将会有很大的应用。

附图说明

图1是本发明方法整体流程示意图；

图2是本发明方法数据预处理流程示意图。

具体实施方式

下面结合实施例和附图对本发明内容作进一步的说明，但不是对本发明的限定。

实施例

参照图1，基于对比学习的中文文本摘要生成方法，包括两个阶段：

阶段1：获得摘要生成模型和评估模型，包括以下步骤：

步骤1.1)数据预处理；

步骤1.2)构建摘要生成模型，该模型包括编码Encoder和解码Decoder两个阶段，在标准的Transformer Encoder输出上使用了动态卷积来筛选信息；

步骤1.3)构建摘要评估模型，使用中文预训练模型Roberta作为摘要评估模型；

步骤1.4)训练摘要生成模型，包括根据经验设置合适的超参数，对模型进行多次迭代训练；

步骤1.5)训练摘要评估模型，采用对比学习的方法来训练评估模型；

阶段2：调用模型生成摘要，包括以下步骤：

步骤2.1)接受用户输入的文本；

步骤2.2)调用摘要生成模型生成候选摘要，解码时使用beam search来生成多个候选摘要；

步骤2.3)调用摘要评估模型生成最终摘要。

参照图2，数据预处理，包括四个过程：读取文本并去噪处理；过滤掉200字符以下的文本；分词分句；文本转码。

读取文本并去噪处理过程是针对最原始的文本数据，对其去噪处理，去除格式、特殊字符等，将原始文本处理成便于训练的规整的纯文本形式。

接下来，针对于长度特别短的文本进行过滤，这里选择了200字符为条件，将200字符以下的文本舍弃。

将过滤得到的文本按照标点符号进行分句处理，可以通过句号、感叹号等符号来分句，之后使用中文jieba分词工具进行分词处理。

文本转码过程是将经过去噪处理后的文本用数字表示。

本发明使用的是预训练模型的词汇表。

本发明利用改进的Transformer来构建摘要生成模型，编码首先，将生成的词向量组成文本矩阵X作为输入，经过6个相同的编码块处理后，输出文本的固定长度向量H，计算公式如下：H＝Transformer_Encoder(X)

式中，X为词向量文本矩阵；

C＝DynamicConv(H,i,c)＝LightConv(H,f(H_i)_h,:,i,c)

解码阶段：解码器采用标准的Transformer解码器，由6个相同的解码块堆叠而成，每个解码块比编码器中多了一个Encoder-Decoder Attention，解码器在接收到编码器输出的文本向量表达后能够生成最后的隐藏输出向量A，计算公式如下：

A＝Transformer_Decoder(C)

式中，C为卷积后的向量；最后，将解码器Decoder顶层输出的D向量，再经过softmax计算得到模型最终输出，计算公式如下：

P_vocab＝softmax(W_tA+b_t)

式中，W_t为权重矩阵，A为隐藏输出向量，b_t为偏置项。

loss_t＝-logp(w_t)。

式中，

代表候选摘要，

本发明方法的执行过程是先执行阶段1再执行阶段2，分阶段进行文本摘要生成，使得方法实现相对简单，过程清晰明了、不冗余。

Claims

1.基于对比学习的中文文本摘要生成方法，其特征在于，所述方法包括两个阶段：

阶段1：获得摘要生成模型和评估模型，包括以下步骤：

步骤1.1)数据预处理，包括四个过程，读取文本并去噪处理；过滤掉200字符以下的语句；分词分句；文本转码；

步骤1.2)构建摘要生成模型，利用改进的Transformer来构建摘要生成模型，该模型包括编码Encoder和解码Decoder两个阶段，在标准的Transformer Encoder输出上使用了动态卷积来筛选信息；

阶段2：调用模型生成摘要，包括以下步骤：

步骤2.1)接受用户输入的文本；

步骤2.3)调用摘要评估模型生成最终摘要。

2.如权利要求1所述的基于对比学习的中文文本摘要生成方法，其特征在于：步骤1.2)所述编码阶段，编码器由标准的Transformer编码器和动态卷积网络构成，Transformer编码器由6个相同的编码块堆叠而成，每一层都包含一个多头注意力层和一个前向反馈层；

H＝Transformer_Encoder(X)

式中，X为词向量文本矩阵；

C＝DynamicConv(H,i,c)＝LightConv(H,f(H_i)_h,:,i,c)

3.如权利要求2所述的基于对比学习的中文文本摘要生成方法，其特征在于：步骤1.2)所述解码阶段：解码器采用标准的Transformer解码器，由6个相同的解码块堆叠而成，每个解码块比编码器中多了一个Encoder-Decoder Attention，解码器在接收到编码器输出的文本向量表达后能够生成最后的隐藏输出向量A，计算公式如下：

A＝Transformer_Decoder(C)

P_vocab＝softmax(W_tA+b_t)

式中，W_t为权重矩阵，A为隐藏输出向量，b_t为偏置项。

4.如权利要求1所述的基于对比学习的中文文本摘要生成方法，其特征在于：步骤1.4)所述迭代训练，在训练过程中引入负对数似然来最小化损失函数，若t时刻解码器的预测词语为w_t，则模型损失计算公式如下：

loss_t＝-logp(w_t)。

5.如权利要求1所述的基于对比学习的中文文本摘要生成方法，其特征在于：步骤1.5)所述训练摘要评估模型，引入了对比损失，公式如下：

式中，

代表候选摘要，

6.如权利要求1所述的基于对比学习的中文文本摘要生成方法，其特征在于：步骤2.3)所述调用摘要评估模型，通过对步骤2.2)生成的多个候选摘要，使用评估模型Roberta分别对源文本和候选摘要进行编码，并计算各自[CLS]的余弦相似度，将其作为候选摘要的打分，最终模型输出的摘要S为获得最高分的候选摘要，S的计算公式如下：