CN115795026A - 基于对比学习的中文文本摘要生成方法 - Google Patents
基于对比学习的中文文本摘要生成方法 Download PDFInfo
- Publication number
- CN115795026A CN115795026A CN202211585154.2A CN202211585154A CN115795026A CN 115795026 A CN115795026 A CN 115795026A CN 202211585154 A CN202211585154 A CN 202211585154A CN 115795026 A CN115795026 A CN 115795026A
- Authority
- CN
- China
- Prior art keywords
- model
- abstract
- text
- candidate
- evaluation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对比学习的中文文本摘要生成方法,包括获得摘要生成和评估模型,以及调用模型生成摘要两个阶段。第一阶段包括数据预处理;构建摘要生成模型;构建摘要评估模型;训练摘要生成模型;训练摘要评估模型。第二阶段包括:接受用户输入的文本;调用摘要生成模型生成候选摘要;调用摘要评估模型生成最终摘要。第一阶段分别基于最大似然估计来训练摘要生成模型以及基于对比学习来训练摘要评估模型。第二阶段,对于用户输入的文本,首先经过摘要生成模型生成候选摘要,再通过摘要评估模型生成最终摘要。本发明方法实现相对简单,应用性强,尤其在自动报告生成等方面将会有很大的应用。
Description
技术领域
本发明属于计算机自然语言处理技术领域,具体涉及一种基于对比学习的中文文本摘要生成方法。
背景技术
深度学习使人工智能研究取得了突破性的进展,它结束了人工智能长达十年未能有突破的局面,并迅速在业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在计算机视觉、语音识别等领域得到了广泛应用,在自然语言处理领域也取得了一定的成效。深度学习是实现人工智能最有效,也是取得成效最大的实施方法。
随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要提供了一个高效的解决方案。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。自动文本摘要可分为两类,分别是抽取式和生成式。
抽取式方法就是从原文中选取关键词、关键句组成摘要,这种方法的好处在于简单实用,不会完全脱离于文档本身,不容易产生完全偏离文章主旨的点。传统的抽取式摘要方法使用图方法、聚类等方式完成无监督摘要,而目前的基于神经网络的方法往往将问题建模为序列标注和句子排序两类任务。
抽取式摘要在语法、句法上有一定的保证,但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。生成式摘要允许摘要中包括新的词语或短语,灵活性高,随着近几年神经网络模型的发展,序列到序列模型被广泛的用于生成式摘要任务,并取得一定的成果。
然而,在文本摘要生成过程中,生成式文本摘要会面临严重的曝光偏差问题。
当前的序列到序列模型通常在极大似然估计的框架下以teach-forcing的方式得到训练,众所周知,序列到序列模型存在着目标函数和评价指标不一致的问题,因为目标函数计算的是局部的,字符级别的损失,而ROUGE这类评价指标会计算模型生成的摘要与参考摘要整体上的相似性。此外,序列到序列模型本身的训练和测试阶段也是不一致的,在测试阶段,模型会以自回归的方式来生成摘要,在这个生成过程中存在错误累加的问题,这个问题也被广泛地称为曝光偏差问题。
发明内容
在人工智能飞速发展的今天,本发明针对现有生成式文本摘要自动生成方法的缺陷,提供了一种基于对比学习的中文文本摘要生成方法,首先训练一个基于MLE损失的文本摘要生成模型来生成候选摘要,然后通过基于对比损失的评估模型对候选摘要进行打分排序来选择最终摘要。
为实现上述目的,本发明一种基于对比学习的中文文本摘要生成方法,包括两个阶段:
阶段1:获得摘要生成模型和评估模型;
阶段2:调用模型生成摘要。
阶段1所述获得摘要生成模型和评估模型,包括以下步骤:
步骤1.1)数据预处理;
步骤1.2)构建摘要生成模型;
步骤1.3)构建摘要评估模型;
步骤1.4)训练摘要生成模型;
步骤1.5)训练摘要评估模型。
阶段2所述调用模型生成摘要,包括以下步骤:
步骤2.1)接受用户输入的文本;
步骤2.2)调用摘要生成模型生成候选摘要;
步骤2.3)调用摘要评估模型生成最终摘要。
本发明方法,阶段1步骤1.1)所述数据预处理,包括四个过程,读取文本并去噪处理;过滤掉200字符以下的语句;分词分句;文本转码。
本发明方法,阶段1步骤1.2)所述构建摘要生成模型,利用改进的Transformer来构建摘要生成模型,该模型包括编码Encoder和解码Decoder两个阶段,在标准的Transformer Encoder输出上使用了动态卷积来筛选信息;
所述编码阶段:编码器由标准的Transformer编码器和动态卷积网络构成,Transformer编码器由6个相同的编码块堆叠而成,每一层都包含一个多头注意力层(Multi-Head Attention Layer)和一个前向反馈层(Feed Forward Layer);
编码首先,将生成的词向量组成文本矩阵X作为输入,经过6个相同的编码块处理后,输出文本的固定长度向量H,计算公式如下:
H=TransformerEncoder(X)
式中,X为词向量文本矩阵;
之后,固定长度向量H通过动态卷积来提取序列中局部文本的深层特征和潜在词消息,尤其是n-gram特征,具体的来说,通过在LightConv上构建动态卷积来解决问题,卷积后的向量C计算公式如下:
C=DynamicConv(H,i,c)=LightConv(H,f(Hi)h,:,i,c)
式中,c表示通道,i表示位置,h表示c所属的头位置,f是一个线性映射f:Rd→RH*k,可用具有学习权重WQ∈RH*k*d的简单线性模块对f进行建模。
所述解码阶段:解码器采用标准的Transformer解码器,由6个相同的解码块堆叠而成,每个解码块比编码器中多了一个Encoder-Decoder Attention,解码器在接收到编码器输出的文本向量表达后能够生成最后的隐藏输出向量A,计算公式如下:
A=TransformerDecoder(C)
式中,C为卷积后的向量;最后,将解码器Decoder顶层输出的A向量,再经过softmax计算得到模型最终输出,计算公式如下:
Pvocab=softmax(WtA+bt)
式中,Wt为权重矩阵,A为隐藏输出向量,bt为偏置项。
本发明方法,阶段1步骤1.3)所述摘要评估模型构建,使用中文预训练模型Roberta作为摘要评估模型。
本发明方法,阶段1步骤1.4)所述训练摘要生成模型,包括根据经验设置合适的超参数,对模型进行多次迭代训练,在训练过程中引入负对数似然来最小化损失函数,若t时刻解码器的预测词语为wt,则模型损失计算公式如下:
losst=-logp(wt)。
本发明方法,阶段1步骤1.5)所述训练摘要评估模型,采用对比学习的方法来训练评估模型,引入了对比损失,公式如下:
本发明方法,阶段2步骤2.2)所述调用摘要生成模型生成候选摘要,在进行解码时使用beam search来生成多个候选摘要。
本发明方法,阶段2步骤2.3)所述调用摘要评估模型,通过对步骤2.2)生成的多个候选摘要,使用评估模型Roberta分别对源文本和候选摘要进行编码,并计算各自[CLS]的余弦相似度,将其作为候选摘要的打分,最终模型输出的摘要S为获得最高分的候选摘要,S的计算公式如下:
本发明方法在获得文本摘要生成模型阶段采用先进的深度学习算法模型,模型训练过程更加自动化,免去了过多的人工干预,使得文本摘要生成更加自动化,训练过程采用一系列训练策略,使得文本摘要生成模型生成的文本可读性更强;本发明提供的一种基于对比学习的文本摘要自动生成方法能够自动生成文本摘要,方法实现相对简单,不需要人为过多干预,应用性强,尤其在新闻标题生成方面将会有很大的应用。
附图说明
图1是本发明方法整体流程示意图;
图2是本发明方法数据预处理流程示意图。
具体实施方式
下面结合实施例和附图对本发明内容作进一步的说明,但不是对本发明的限定。
实施例
参照图1,基于对比学习的中文文本摘要生成方法,包括两个阶段:
阶段1:获得摘要生成模型和评估模型,包括以下步骤:
步骤1.1)数据预处理;
步骤1.2)构建摘要生成模型,该模型包括编码Encoder和解码Decoder两个阶段,在标准的Transformer Encoder输出上使用了动态卷积来筛选信息;
步骤1.3)构建摘要评估模型,使用中文预训练模型Roberta作为摘要评估模型;
步骤1.4)训练摘要生成模型,包括根据经验设置合适的超参数,对模型进行多次迭代训练;
步骤1.5)训练摘要评估模型,采用对比学习的方法来训练评估模型;
阶段2:调用模型生成摘要,包括以下步骤:
步骤2.1)接受用户输入的文本;
步骤2.2)调用摘要生成模型生成候选摘要,解码时使用beam search来生成多个候选摘要;
步骤2.3)调用摘要评估模型生成最终摘要。
参照图2,数据预处理,包括四个过程:读取文本并去噪处理;过滤掉200字符以下的文本;分词分句;文本转码。
读取文本并去噪处理过程是针对最原始的文本数据,对其去噪处理,去除格式、特殊字符等,将原始文本处理成便于训练的规整的纯文本形式。
接下来,针对于长度特别短的文本进行过滤,这里选择了200字符为条件,将200字符以下的文本舍弃。
将过滤得到的文本按照标点符号进行分句处理,可以通过句号、感叹号等符号来分句,之后使用中文jieba分词工具进行分词处理。
文本转码过程是将经过去噪处理后的文本用数字表示。
本发明使用的是预训练模型的词汇表。
本发明利用改进的Transformer来构建摘要生成模型,编码首先,将生成的词向量组成文本矩阵X作为输入,经过6个相同的编码块处理后,输出文本的固定长度向量H,计算公式如下:H=TransformerEncoder(X)
式中,X为词向量文本矩阵;
之后,固定长度向量H通过动态卷积来提取序列中局部文本的深层特征和潜在词消息,尤其是n-gram特征,具体的来说,通过在LightConv上构建动态卷积来解决问题,卷积后的向量C计算公式如下:
C=DynamicConv(H,i,c)=LightConv(H,f(Hi)h,:,i,c)
式中,c表示通道,i表示位置,h表示c所属的头位置,f是一个线性映射f:Rd→RH*k,可用具有学习权重WQ∈RH*k*d的简单线性模块对f进行建模。
解码阶段:解码器采用标准的Transformer解码器,由6个相同的解码块堆叠而成,每个解码块比编码器中多了一个Encoder-Decoder Attention,解码器在接收到编码器输出的文本向量表达后能够生成最后的隐藏输出向量A,计算公式如下:
A=TransformerDecoder(C)
式中,C为卷积后的向量;最后,将解码器Decoder顶层输出的D向量,再经过softmax计算得到模型最终输出,计算公式如下:
Pvocab=softmax(WtA+bt)
式中,Wt为权重矩阵,A为隐藏输出向量,bt为偏置项。
本发明方法,阶段1步骤1.4)所述训练摘要生成模型,包括根据经验设置合适的超参数,对模型进行多次迭代训练,在训练过程中引入负对数似然来最小化损失函数,若t时刻解码器的预测词语为wt,则模型损失计算公式如下:
losst=-logp(wt)。
本发明方法,阶段1步骤1.5)所述训练摘要评估模型,采用对比学习的方法来训练评估模型,引入了对比损失,公式如下:
本发明方法,阶段2步骤2.3)所述调用摘要评估模型,通过对步骤2.2)生成的多个候选摘要,使用评估模型Roberta分别对源文本和候选摘要进行编码,并计算各自[CLS]的余弦相似度,将其作为候选摘要的打分,最终模型输出的摘要S为获得最高分的候选摘要,S的计算公式如下:
本发明方法的执行过程是先执行阶段1再执行阶段2,分阶段进行文本摘要生成,使得方法实现相对简单,过程清晰明了、不冗余。
Claims (6)
1.基于对比学习的中文文本摘要生成方法,其特征在于,所述方法包括两个阶段:
阶段1:获得摘要生成模型和评估模型,包括以下步骤:
步骤1.1)数据预处理,包括四个过程,读取文本并去噪处理;过滤掉200字符以下的语句;分词分句;文本转码;
步骤1.2)构建摘要生成模型,利用改进的Transformer来构建摘要生成模型,该模型包括编码Encoder和解码Decoder两个阶段,在标准的Transformer Encoder输出上使用了动态卷积来筛选信息;
步骤1.3)构建摘要评估模型,使用中文预训练模型Roberta作为摘要评估模型;
步骤1.4)训练摘要生成模型,包括根据经验设置合适的超参数,对模型进行多次迭代训练;
步骤1.5)训练摘要评估模型,采用对比学习的方法来训练评估模型;
阶段2:调用模型生成摘要,包括以下步骤:
步骤2.1)接受用户输入的文本;
步骤2.2)调用摘要生成模型生成候选摘要,解码时使用beam search来生成多个候选摘要;
步骤2.3)调用摘要评估模型生成最终摘要。
2.如权利要求1所述的基于对比学习的中文文本摘要生成方法,其特征在于:步骤1.2)所述编码阶段,编码器由标准的Transformer编码器和动态卷积网络构成,Transformer编码器由6个相同的编码块堆叠而成,每一层都包含一个多头注意力层和一个前向反馈层;
编码首先,将生成的词向量组成文本矩阵X作为输入,经过6个相同的编码块处理后,输出文本的固定长度向量H,计算公式如下:
H=TransformerEncoder(X)
式中,X为词向量文本矩阵;
之后,固定长度向量H通过动态卷积来提取序列中局部文本的深层特征和潜在词消息,尤其是n-gram特征,具体的来说,通过在LightConv上构建动态卷积来解决问题,卷积后的向量C计算公式如下:
C=DynamicConv(H,i,c)=LightConv(H,f(Hi)h,:,i,c)
式中,c表示通道,i表示位置,h表示c所属的头位置,f是一个线性映射f:Rd→RH*k,可用具有学习权重WQ∈RH*k*d的简单线性模块对f进行建模。
3.如权利要求2所述的基于对比学习的中文文本摘要生成方法,其特征在于:步骤1.2)所述解码阶段:解码器采用标准的Transformer解码器,由6个相同的解码块堆叠而成,每个解码块比编码器中多了一个Encoder-Decoder Attention,解码器在接收到编码器输出的文本向量表达后能够生成最后的隐藏输出向量A,计算公式如下:
A=TransformerDecoder(C)
式中,C为卷积后的向量;最后,将解码器Decoder顶层输出的A向量,再经过softmax计算得到模型最终输出,计算公式如下:
Pvocab=softmax(WtA+bt)
式中,Wt为权重矩阵,A为隐藏输出向量,bt为偏置项。
4.如权利要求1所述的基于对比学习的中文文本摘要生成方法,其特征在于:步骤1.4)所述迭代训练,在训练过程中引入负对数似然来最小化损失函数,若t时刻解码器的预测词语为wt,则模型损失计算公式如下:
losst=-logp(wt)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211585154.2A CN115795026A (zh) | 2022-12-09 | 2022-12-09 | 基于对比学习的中文文本摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211585154.2A CN115795026A (zh) | 2022-12-09 | 2022-12-09 | 基于对比学习的中文文本摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115795026A true CN115795026A (zh) | 2023-03-14 |
Family
ID=85418472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211585154.2A Pending CN115795026A (zh) | 2022-12-09 | 2022-12-09 | 基于对比学习的中文文本摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795026A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115965033A (zh) * | 2023-03-16 | 2023-04-14 | 安徽大学 | 基于序列级前缀提示的生成式文本摘要方法和装置 |
-
2022
- 2022-12-09 CN CN202211585154.2A patent/CN115795026A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115965033A (zh) * | 2023-03-16 | 2023-04-14 | 安徽大学 | 基于序列级前缀提示的生成式文本摘要方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146610B (zh) | 一种智能保险推荐方法、装置及智能保险机器人设备 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN114444479B (zh) | 一种端到端中文语音文本纠错方法、装置和存储介质 | |
CN106484674B (zh) | 一种基于深度学习的中文电子病历概念抽取方法 | |
CN111061861A (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN112417854A (zh) | 中文文档抽取式摘要方法 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN115272533A (zh) | 一种基于视频结构化数据的智能图文转视频的方法及系统 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN115795026A (zh) | 基于对比学习的中文文本摘要生成方法 | |
CN111815426B (zh) | 一种涉及金融投研的数据处理方法及终端 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN117216008A (zh) | 一种基于知识图谱的档案多模态智能编纂方法及系统 | |
CN115688703B (zh) | 一种特定领域文本纠错方法、存储介质和装置 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115114396A (zh) | 一种语言模型的训练方法、样本数据的构建方法及装置 | |
CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |