CN114880461A - 一种结合对比学习和预训练技术的中文新闻文本摘要方法 - Google Patents

一种结合对比学习和预训练技术的中文新闻文本摘要方法 Download PDF

Info

Publication number
CN114880461A
CN114880461A CN202210623480.1A CN202210623480A CN114880461A CN 114880461 A CN114880461 A CN 114880461A CN 202210623480 A CN202210623480 A CN 202210623480A CN 114880461 A CN114880461 A CN 114880461A
Authority
CN
China
Prior art keywords
model
text
training
vector
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210623480.1A
Other languages
English (en)
Inventor
林鸿飞
谭金源
杨亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210623480.1A priority Critical patent/CN114880461A/zh
Publication of CN114880461A publication Critical patent/CN114880461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种结合对比学习和预训练技术的中文新闻文本摘要方法,包括(1)构建对比学习输入数据;(2)使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类打分,抽取包含关键信息的候选句得到候选句集合;(3)将候选句集合输入到结合中文新闻语料微调后的MT5模型中,生成摘要结果;(4)结合AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。本发明能够结合对比学习获取更忠于原文内容的摘要结果;通过结合外部知识,提升预训练模型在新闻文本上的语义表示能力;通过先抽取后生成的摘要方式,使模型充分关注新闻文本中的关键内容,有效提升了模型的可解释性和摘要结果的连续性、可读性。

Description

一种结合对比学习和预训练技术的中文新闻文本摘要方法
技术领域
本发明属于自然语言处理领域,涉及一种基于神经网络的中文新闻文本摘要方法,尤其涉及一种结合对比学习和预训练技术的中文新闻文本摘要方法。
背景技术
在自然语言处理领域,文本摘要技术已经成为了国内外学者研究的热门方向,基于中文新闻语料上的文本摘要技术研究更是成为了摘要研究的重要组成。随着微博、今日头条等社交媒体网络的高速发展,随之而来的大量新闻文本以原文链接的方式出现在社交媒体网络上,因此提出一种有效中文新闻的摘要方法十分重要。使用文本自动摘要技术,能够避免手工实现新闻文本摘要需要耗费大量人力资源的情况,帮助人们从信息海洋中解放,提升文本阅读效率,帮助人们适应信息爆炸时代下的快节奏生活。
现阶段,大多数中文摘要数据集都采用的是新闻文本,主要是因为新闻具有鲜明的文本特征,如语言规范、新闻关键内容主要集中在新闻开头和结尾、标题包含关键内容等,相比于通用领域的文本,较为标准的新闻文本更有利于模型生成摘要。常见的中文新闻摘要数据集包括:NLPCC2015评测任务四的摘要数据集,数据来自于新浪微博;NLPCC2017评测任务三的摘要数据集,数据来自于今日头条;LCSTS摘要数据集,由哈尔滨工业大学深圳研究生院利用微博爬虫收集得到。
到目前为止,常见的文本摘要方法主要有以下三种:抽取式摘要方法、生成式摘要方法以及混合式摘要方法。抽取式摘要方法直接从原文抽取词句作为摘要结果,常用机器学习模型、深度学习模型对原文文本进行打分排序,筛选包含关键内容的摘要结果。如基于无监督的基于迭代图的排名算法提取摘要;如利用人工特征对句子和单词的重要程度进行打分;如基于嵌套树和预训练语言模型的摘要抽取方法。生成式摘要方法通过对输入文本进行一系列的转述、替换等操作,生成不完全来源于原文的摘要结果。如基于序列到序列模型的摘要结果生成;如结合序列到序列模型和注意力机制解决长距离依赖问题;如结合copy机制和coverage机制的指针生成器网络模型。混合式摘要方法通过先抽取后生成的方式融合抽取式摘要方法和生成式摘要方法。如利用强化学习同时训练抽取式模型和生成式模型;如利用一致性损失函数端到端训练两种模型。但是,利用以上三种摘要方法存在摘要结果质量较差、易生成重复内容、易生成虚假内容的问题,无法在中文新闻摘要领域落地施行。
综上所述,如何充分利用中文新闻文本的语义信息,生成重复内容较少的摘要结果,使中文新闻的摘要内容更忠于原文,构建可解释性强、摘要效果好的中文新闻文本摘要模型,使其在中文新闻领域拥有较高的应用价值是现阶段需要解决的问题。
发明内容
为克服现有摘要技术中存在的不足,本发明提供了一种结合对比学习和预训练技术的中文新闻文本摘要方法。该方法首先使用回译、实体替换的方式构建对比学习输入数据;其次使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类打分,抽取包含关键信息的候选句得到候选句集合;然后将得到的候选句集合输入到结合中文新闻语料微调后的MT5模型中,生成摘要结果;最后结合本发明提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。
本发明采取的技术方案是:一种结合对比学习和预训练技术的中文新闻文本摘要方法,包括以下步骤:
使用回译、实体替换的方式构建对比学习输入数据;
使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类,抽取得到候选句集合;
使用抽取得到的候选句集合输入到结合中文新闻语料微调后的MT5预训练模型中,生成摘要结果;
结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。
进一步的,步骤(1)中使用回译、实体替换的方式构建对比学习输入数据包括:
使用翻译软件将中文新闻翻译成英文,然后再次使用翻译软件将翻译得到的英文文本重新翻译成中文,得到回译后的中文新闻文本作为正例数据;使用SWAPENT随机替换新闻文本中的实体,将替换实体后的中文新闻文本作为负例数据。
进一步的,步骤(2)中结合中文新闻语料调整BERT预训练模型包括:
通过爬取多种新闻网站得到中文新闻或寻找开源的中文新闻语料对预训练模型BERT进行调整。
进一步的,步骤(2)中使用BERT预训练模型获取新闻文本的上下文向量表示具体为:
(a)BERT模型主要依据基于WordPiece方法生成的、大小为M的词典C={c1,c2,…,cM},提取长度为N的中文新闻文本序列W={w1,w2,…,wN}的向量表示,句子中每个单词对应的词向量具体为:
Vi={vi1,vi2,…,vip} (1)
其中Vi表示句子中的第i个单词,p为词典中词向量维度,vip表示句子中的第i个单词的第p维向量;
(b)BERT预训练模型需要获取输入文本序列的向量矩阵D、位置矩阵P和上下句矩阵F,分别记录词向量、词在词典中的位置以及词所属的句子是原文句的上句还是下句;结合三个向量矩阵得到BERT模型的输入向量矩阵Z0,具体计算公式为:
Z0=D+P+F (2)
(c)BERT模型采用多个相同的Transformer编码器模块堆叠而成,将输入向量矩阵Z0输入到编码器模块中的自注意力子层和全连接子层,得到输出向量矩阵Z1,所述自注意力子层中的具体计算公式为:
QR=ZR-1P1+b1 (3)
KR=ZR-1P2+b2 (4)
VR=ZR-1P3+b3 (5)
Figure BDA0003677769690000031
其中P1、P2、P3、b1、b2、b3为训练得到的注意力机制权重参数,QR、KR、VR分别为第R个向量输出矩阵中计算得到的Q、K、V的值,OR为第R个向量输出矩阵中自注意力子层经过softmax归一化操作计算得到的输出矩阵;
(d)将第R个自注意力子层的输出矩阵OR为输入,经过全连接子层,计算得到文本的上下文向量表示;引入GELUs激活函数的全连接子层的具体计算公式为:
YR=gelu(ORP4+b4) (7)
其中P4、b4为训练得到的注意力机制权重参数。
进一步的,步骤(2)中对文本中的句子进行分类表示具体为:
(a)将利用BERT预训练模型获取的上下文向量h输入到Bi-LSTM中,进一步提取上下文的语义信息,具体计算公式为:
Figure BDA0003677769690000032
Figure BDA0003677769690000033
Figure BDA0003677769690000034
Figure BDA0003677769690000035
Figure BDA0003677769690000036
表示正向GRU和反向GRU在t时刻的隐层状态向量,分别由当前时刻的输入向量xt及当前方向上一时刻的隐层状态向量ht-1、ht+1得到;将
Figure BDA0003677769690000037
Figure BDA0003677769690000038
拼接后得到当前时刻隐层状态向量ht;ht包含了两个方向上的隐层状态;
(b)利用Bi-LSTM进一步文本获取更高维度的语义信息后,将句向量集合送入到全连接层,判断当前句子是否为候选句;模型结合对比学习,采用损失函数Lext-CL作为抽取式摘要模型的损失函数,具体计算公式如下:
Figure BDA0003677769690000039
其中
Figure BDA0003677769690000041
计算正例对
Figure BDA0003677769690000042
负例对
Figure BDA0003677769690000043
的相似度,τ为温度系数,决定对比损失对困难负样本的关注程度。
进一步的,步骤(3)中结合中文新闻语料调整MT5预训练模型包括:
通过新闻网站得到中文新闻或寻找开源的中文新闻语料对MT5预训练模型进行调整,使模型能够获取更好的中文新闻语义表示。
进一步的,步骤(3)中利用MT5预训练模型生成摘要结果中,模型采用抽取得到候选句集合作为MT5预训练模型的输入,通过对新闻文本编码、解码,得到最终的文本摘要结果;
MT5预训练模型采用相对位置嵌入(Relative Position Embeddings)代替绝对位置嵌入,在模型的Attention计算过程中引入相对编码信息,解决模型对文本中单词的位置不敏感的问题,帮助模型区分不同位置的单词。
进一步的,步骤(3)中利用MT5预训练模型生成摘要结果中,模型解码部分引入copy机制,允许模型从原文中直接复制单词或者直接从词表中生成新单词,具体包括:
(a)给定一个长度为N的输入文本序列W={w1,w2,…,wN},在t时刻引入注意力分布at调整分布权重,具体计算公式为:
pti=zTtanh(H1hi+H2st+v1) (12)
at=softmax(pti) (13)
其中z、H1、H2、v1是计算注意力权重时的超参数,hi是新闻文本中的单词按出现顺序传入编码器框架后得到的隐层状态序列;
(b)利用注意力分布at计算t时刻需要关注的文本信息,结合hi得到加权上下文向量h′t,具体计算公式为:
h′t=∑iatihi (14)
(c)将上下文向量h′t和t时刻的解码状态序列st的串联结果输入到线性映射中,得到t时刻的预测结果在词典上的分布结果Pvoc,具体计算公式为:
Pvoc=softmax(H3(H4[st,h′t]+v2)+v3) (15)
其中H1、H2、v2、v3是模型训练得到的超参数,[st,h′t]表示上下文向量h′t和当前t时刻的解码状态序列st的串联结果;
(d)模型通过计算生成概率Pgen,判断t时刻模型需要从原文中复制单词,还是从词表中生成原文中不存在的新单词,具体计算公式为:
Figure BDA0003677769690000044
其中m1、m2、m3、v4是模型训练过程中得到的超参数,σ表示sigmoid函数,wNt是当前t时刻解码器框架中的输入序列。
进一步的,步骤(3)中利用MT5预训练模型生成摘要结果中,模型解码部分引入coverage机制,避免生成过多的文本冗余内容,提升模型的摘要结果质量,具体包括:
(a)模型在t时刻引入追踪向量ct,追踪已生成的单词,对已生成的单词添加惩罚系数,避免生成过多的文本冗余内容,具体计算公式为:
ct=∑t‘at‘ (17)
(b)模型结合追踪向量后,新的注意力权重分布a_newt计算公式为:
p_newti=zTtanh(H5hi+H6st+H7catcht+v5) (18)
a_newt=softmax(p_newti) (19)
其中z、H5、H6、H7、v5是计算注意力权重时的超参数;
(c)生成式摘要模型目标损失及coverage机制损失函数计算方法如下:
Figure BDA0003677769690000051
Figure BDA0003677769690000052
P(y|x1,x2,…,xn)表示在x1,x2,…,xn已经出现的条件下,生成y的概率;T已经表示所有时刻,min(at,ct)用来获取t时刻注意力权重at和t时刻coverage机制得分ct的较小值。
进一步的,步骤(4)中结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练;具体包括:
结合公式(11)中的抽取式模型损失函数Lext-CL、公式(20)中的生成式模型损失函数Labs和公式(21)中的coverage机制损失函数Lcov计算得到AECLoss损失函数;
AECLoss=α1Lext-CL2Labs3Lcov (22)
α1、α2、α3为模型训练得到的参数。
本发明有益效果是:一种结合对比学习和预训练技术的中文新闻文本摘要方法,包括以下步骤:(1)使用回译、实体替换的方式构建对比学习输入数据,(2)使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类打分,抽取包含关键信息的候选句得到候选句集合;(3)将得到的候选句集合输入到结合中文新闻语料微调后的MT5模型中,生成摘要结果;(4)结合本发明提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。与已有的技术对比,本发明具有以下优点:能够结合对比学习获取更忠于原文内容的摘要结果;通过结合外部知识,提升预训练模型在新闻文本上的语义表示能力;通过先抽取后生成的摘要方式,使模型充分关注新闻文本中的关键内容,有效提升了模型的可解释性和摘要结果的连续性、可读性。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的中文新闻文本摘要模型框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
实施例1:如图1所示,结合对比学习和预训练技术的中文新闻文本摘要方法,包括以下步骤:
步骤1、在官方提供的训练数据的基础上,使用回译、实体替换的方式构建对比学习输入数据,以实现数据增强的效果:
(a)使用谷歌翻译软件将中文新闻翻译成英文,然后再次使用谷歌翻译软件将翻译得到的英文文本重新翻译成中文,得到回译后的中文新闻文本作为正例数据。
(b)使用SWAPENT随机替换新闻文本中的实体,可以随机替换文本中人名、位置等不同种类的实体,将替换实体后的中文新闻文本作为负例数据。
步骤2、使用结合中文新闻语料微调后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类,抽取得到候选句集合:
本发明结合中文新闻语料微调BERT预训练模型,通过爬取新浪微博、今日头条等新闻网站得到中文新闻或寻找开源的中文新闻语料对预训练模型BERT进行微调,使模型能够获取更好的中文新闻语义表示。
使用BERT预训练模型获取新闻文本的上下文向量:
(a)BERT模型主要依据基于WordPiece方法生成的、大小为M的词典C={c1,c2,…,cM+,提取长度为N的中文新闻文本序列W={w1,w2,…,wN}的向量表示,句子中每个单词对应的词向量具体为公式(1)。
(b)BERT预训练模型需要获取输入文本序列的向量矩阵D、位置矩阵P和上下句矩阵F,分别记录词向量、词在词典中的位置以及词所属的句子是原文句的上句还是下句。结合三个向量矩阵可以得到BERT模型的输入向量矩阵Z0,具体为计算公式(2)。
(c)BERT模型采用多个相同的Transformer编码器模块堆叠而成,将输入向量矩阵Z0输入到编码器模块中的自注意力子层和全连接子层,得到输出向量矩阵Z1,自注意力子层中的具体为计算公式(3)~(6)。
(d)将第R个自注意力子层的输出矩阵OR为输入,经过全连接子层,计算得到文本的上下文向量表示。引入GELUs激活函数的全连接子层的具体为计算公式(7)。
对文本中的句子进行分类:
(a)将利用BERT预训练模型获取的上下文向量h输入到Bi-LSTM中,进一步提取上下文的语义信息,具体为计算公式(8)~(10)
(b)利用Bi-LSTM进一步文本获取更高维度的语义信息后,将句向量集合送入到全连接层,判断当前句子是否为候选句。模型结合对比学习,采用损失函数Lext-CL作为抽取式摘要模型的损失函数,具体为计算公式(11)
步骤3、将得到的候选句集合输入到结合中文新闻语料微调后的MT5模型中,生成摘要结果:
利用MT5预训练模型生成摘要结果中,模型采用抽取得到候选句集合作为MT5预训练模型的输入,通过对新闻文本编码、解码,得到最终的文本摘要结果。
MT5预训练模型采用相对位置嵌入(Relative Position Embeddings)代替绝对位置嵌入,在模型的Attention计算过程中引入相对编码信息,解决模型对文本中单词的位置不敏感的问题,帮助模型区分不同位置的单词。
利用MT5预训练模型生成摘要结果中,模型解码部分引入copy机制,允许模型从原文中直接复制单词或者直接从词表中生成新单词:
(a)给定一个长度为N的输入文本序列W={w1,w2,…,wN},在t时刻引入注意力分布at调整分布权重,具体为计算公式(12)、(13)。
(b)利用注意力分布at计算t时刻需要关注的文本信息,结合hi得到加权上下文向量h′t,具体为计算公式(14)。
(c)将上下文向量h′t和t时刻的解码状态序列st的串联结果输入到线性映射中,得到t时刻的预测结果在词典上的分布结果Pvoc,具体为计算公式(15)。
(d)模型通过计算生成概率Pgen,判断t时刻模型需要从原文中复制单词,还是从词表中生成原文中不存在的新单词,具体为计算公式(16)。
利用MT5预训练模型生成摘要结果中,模型解码部分引入coverage机制,避免生成过多的文本冗余内容,提升模型的摘要结果质量:
(a)模型在t时刻引入追踪向量ct,追踪已生成的单词,对已生成的单词添加惩罚系数,避免生成过多的文本冗余内容,具体为计算公式(17);
(b)模型结合追踪向量后,新的注意力权重分布a_newt计算公式为(18)、(19)。
(c)生成式摘要模型目标损失及coverage机制损失函数计算方法如公式(20)、(21)。
步骤4、结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。具体包括:
为了实现抽取式摘要模型和生成式摘要模型的端到端训练,本发明中定义了一种新的AECLoss损失函数,结合公式(11)中的抽取式模型损失函数Lext-CL、公式(20)中的生成式模型损失函数Labs和公式(21)中的coverage机制损失函数Lcov计算得到。计算方法如公式(22)。
AECLoss=α1Lext-CL2Labs3Lcov (22)
α1、α2、α3为模型训练得到的参数,具体设置为α1=3、α2=α3=1。
本发明方法所采用基于ROUGE的自动化评价指标评估来摘要质量。为了验证本发明提出的模型的有效性,本发明在NLPCC2015task4的微博中文新闻摘要数据集上进行实验,依据评测官方的要求,生成一个不多余60个汉字的摘要,数据集中的数据实例如表1所示。
表1
Figure BDA0003677769690000081
将本发明提出的模型结果的ROUGE指标与常用的生成式摘要模型(GPT、UniLM)、混合式摘要模型(Ext-Abs-RL、Ext-Abs-Inconsistency Loss)结果的ROUGE指标进行比较,证明精度的提升。生成式摘要模型中,GPT模型是2018年提出的采用单向Transformer(Dncoder)模型结构进行文本生成的预训练模型;UniLM模型是2019年提出的采用序列到序列预训练方式进行训练的预训练模型,可以用做生成任务。混合式摘要模型中,Ext-Abs-RL模型是2018年提出的结合强化学习训练的混合式摘要模型,以生成摘要的ROUGE得分作为反馈,鼓励模型抽取更好的候选摘要句;Ext-Abs-Inconsistency Loss模型是2018年提出的结合Inconsistency Loss的混合式摘要模型,通过减少模型引入的词级注意力和句级注意力的不一致,生成更好的摘要结果。实验结果如表2所示。
表2
Figure BDA0003677769690000082
从表2的实验结果可以看出,本发明提出的模型相比于常见的生成式摘要模型、混合式摘要模型,在中文新闻摘要任务中,能够得到更高的ROUGE指标,说明提出的模型生成的摘要内容包含更多的关键信息,与标准摘要契合度更高;与现有混合式摘要模型的摘要效果进行对比,可以说明本发明提出的模型结合预训练技术和对比学习,能够捕捉新闻文本特点并获取不同语义子空间的语义表征,有效提升模型的摘要生成结果。
本发明方法具有以下优点:能够结合对比学习获取更忠于原文内容的摘要结果;通过结合外部知识,提升预训练模型在新闻文本上的语义表示能力;通过先抽取后生成的摘要方式,使模型充分关注新闻文本中的关键内容,有效提升了模型的可解释性和摘要结果的连续性、可读性。

Claims (10)

1.一种结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,包括以下步骤:
(1)使用回译、实体替换的方式构建对比学习输入数据;
(2)使用结合中文新闻语料调整后的BERT预训练模型获取新闻文本的上下文向量表示,对文本中的句子进行分类,抽取得到候选句集合;
(3)使用抽取得到的候选句集合输入到结合中文新闻语料调整后的MT5预训练模型中,生成摘要结果;
(4)结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练。
2.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(1)中使用回译、实体替换的方式构建对比学习输入数据包括:
使用翻译软件将中文新闻翻译成英文,然后再次使用翻译软件将翻译得到的英文文本重新翻译成中文,得到回译后的中文新闻文本作为正例数据;使用SWAPENT随机替换新闻文本中的实体,将替换实体后的中文新闻文本作为负例数据。
3.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(2)中结合中文新闻语料调整BERT预训练模型包括:
通过爬取多种新闻网站得到中文新闻或寻找开源的中文新闻语料对预训练模型BERT进行调整。
4.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(2)中使用BERT预训练模型获取新闻文本的上下文向量表示具体为:
(a)BERT模型主要依据基于WordPiece方法生成的、大小为M的词典C={c1,c2,…,cM},提取长度为N的中文新闻文本序列W={w1,w2,…,wN}的向量表示,句子中每个单词对应的词向量具体为:
Vi={vi1,vi2,…,vip} (1)
其中Vi表示句子中的第i个单词,p为词典中词向量维度,vip表示句子中的第i个单词的第p维向量;
(b)BERT预训练模型需要获取输入文本序列的向量矩阵D、位置矩阵P和上下句矩阵F,分别记录词向量、词在词典中的位置以及词所属的句子是原文句的上句还是下句;结合三个向量矩阵得到BERT模型的输入向量矩阵Z0,具体计算公式为:
Z0=D+P+F (2)
(c)BERT模型采用多个相同的Transformer编码器模块堆叠而成,将输入向量矩阵Z0输入到编码器模块中的自注意力子层和全连接子层,得到输出向量矩阵Z1,所述自注意力子层中的具体计算公式为:
QR=ZR-1P1+b1 (3)
KR=ZR-1P2+b2 (4)
VR=ZR-1P3+b3 (5)
Figure FDA0003677769680000021
其中P1、P2、P3、b1、b2、b3为训练得到的注意力机制权重参数,QR、KR、VR分别为第R个向量输出矩阵中计算得到的Q、K、V的值,OR为第R个向量输出矩阵中自注意力子层经过softmax归一化操作计算得到的输出矩阵;
(d)将第R个自注意力子层的输出矩阵OR为输入,经过全连接子层,计算得到文本的上下文向量表示;引入GELUs激活函数的全连接子层的具体计算公式为:
YR=gelu(ORP4+b4) (7)
其中P4、b4为训练得到的注意力机制权重参数。
5.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(2)中对文本中的句子进行分类表示具体为:
(a)将利用BERT预训练模型获取的上下文向量h输入到Bi-LSTM中,进一步提取上下文的语义信息,具体计算公式为:
Figure FDA0003677769680000022
Figure FDA0003677769680000023
Figure FDA0003677769680000024
Figure FDA0003677769680000025
Figure FDA0003677769680000026
表示正向GRU和反向GRU在t时刻的隐层状态向量,分别由当前时刻的输入向量xt及当前方向上一时刻的隐层状态向量ht-1、ht+1得到;将
Figure FDA0003677769680000027
Figure FDA0003677769680000028
拼接后得到当前时刻隐层状态向量ht;ht包含了两个方向上的隐层状态;
(b)利用Bi-LSTM进一步文本获取更高维度的语义信息后,将句向量集合送入到全连接层,判断当前句子是否为候选句;模型结合对比学习,采用损失函数Lext-CL作为抽取式摘要模型的损失函数,具体计算公式如下:
Figure FDA0003677769680000029
其中
Figure FDA00036777696800000210
计算正例对
Figure FDA00036777696800000211
负例对
Figure FDA00036777696800000212
的相似度,τ为温度系数,决定对比损失对困难负样本的关注程度。
6.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(3)中结合中文新闻语料调整MT5预训练模型包括:
通过新闻网站得到中文新闻或寻找开源的中文新闻语料对MT5预训练模型进行调整,使模型能够获取更好的中文新闻语义表示。
7.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(3)中利用MT5预训练模型生成摘要结果中,模型采用抽取得到候选句集合作为MT5预训练模型的输入,通过对新闻文本编码、解码,得到最终的文本摘要结果;
MT5预训练模型采用相对位置嵌入代替绝对位置嵌入,在模型的Attention计算过程中引入相对编码信息。
8.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(3)中利用MT5预训练模型生成摘要结果中,模型解码部分引入copy机制,允许模型从原文中直接复制单词或者直接从词表中生成新单词,具体包括:
(a)给定一个长度为N的输入文本序列W={w1,w2,…,wN},在t时刻引入注意力分布at调整分布权重,具体计算公式为:
pti=zTtanh(H1hi+H2st+v1) (12)
at=softmax(pti) (13)
其中z、H1、H2、v1是计算注意力权重时的超参数,hi是新闻文本中的单词按出现顺序传入编码器框架后得到的隐层状态序列;
(b)利用注意力分布at计算t时刻需要关注的文本信息,结合hi得到加权上下文向量h′t,具体计算公式为:
h′t=∑iatihi (14)
(c)将上下文向量h′t和t时刻的解码状态序列st的串联结果输入到线性映射中,得到t时刻的预测结果在词典上的分布结果Pvoc,具体计算公式为:
Pvoc=softmax(H3(H4[st,h′t]+v2)+v3) (15)
其中H1、H2、v2、v3是模型训练得到的超参数,[st,h′t]表示上下文向量h′t和当前t时刻的解码状态序列st的串联结果;
(d)模型通过计算生成概率Pgen,判断t时刻模型需要从原文中复制单词,还是从词表中生成原文中不存在的新单词,具体计算公式为:
Figure FDA0003677769680000031
其中m1、m2、m3、v4是模型训练过程中得到的超参数,σ表示sigmoid函数,wNt是当前t时刻解码器框架中的输入序列。
9.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(3)中利用MT5预训练模型生成摘要结果中,模型解码部分引入coverage机制,具体包括:
(a)模型在t时刻引入追踪向量ct,追踪已生成的单词,对已生成的单词添加惩罚系数,避免生成过多的文本冗余内容,具体计算公式为:
ct=∑t‘at‘ (17)
(b)模型结合追踪向量后,新的注意力权重分布a_newt计算公式为:
p_newti=zTtanh(H5hi+H6st+H7catcht+v5) (18)
a_newt=softmax(p_newti) (19)
其中z、H5、H6、H7、v5是计算注意力权重时的超参数;
(c)生成式摘要模型目标损失及coverage机制损失函数计算方法如下:
Figure FDA0003677769680000041
Figure FDA0003677769680000042
P(y|x1,x2,…,xn)表示在x1,x2,…,xn已经出现的条件下,生成y的概率;T已经表示所有时刻,min(at,ct)用来获取t时刻注意力权重at和t时刻coverage机制得分ct的较小值。
10.如权利要求1所述的结合对比学习和预训练技术的中文新闻文本摘要方法,其特征在于,步骤(4)中结合提出的AECLoss损失函数实现抽取式模型、生成式模型的端到端训练;具体包括:
结合公式(11)中的抽取式模型损失函数Lext-CL、公式(20)中的生成式模型损失函数Labs和公式(21)中的coverage机制损失函数Lcov计算得到AECLoss损失函数;
AECLoss=α1Lext-CL2Labs3Lcov (22)
α1、α2、α3为模型训练得到的参数。
CN202210623480.1A 2022-06-02 2022-06-02 一种结合对比学习和预训练技术的中文新闻文本摘要方法 Pending CN114880461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210623480.1A CN114880461A (zh) 2022-06-02 2022-06-02 一种结合对比学习和预训练技术的中文新闻文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210623480.1A CN114880461A (zh) 2022-06-02 2022-06-02 一种结合对比学习和预训练技术的中文新闻文本摘要方法

Publications (1)

Publication Number Publication Date
CN114880461A true CN114880461A (zh) 2022-08-09

Family

ID=82679106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210623480.1A Pending CN114880461A (zh) 2022-06-02 2022-06-02 一种结合对比学习和预训练技术的中文新闻文本摘要方法

Country Status (1)

Country Link
CN (1) CN114880461A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563987A (zh) * 2022-10-17 2023-01-03 北京中科智加科技有限公司 一种评论文本分析处理方法
CN115563972A (zh) * 2022-10-17 2023-01-03 北京中科智加科技有限公司 一种结构化的六联情感分析模型的训练方法
CN115934933A (zh) * 2023-03-09 2023-04-07 合肥工业大学 基于双端对比学习的文本摘要生成方法和系统
CN116186420A (zh) * 2023-05-04 2023-05-30 南开大学 一种基于用户偏好的个性化新闻标题生成方法
CN116483990A (zh) * 2023-04-24 2023-07-25 重庆邮电大学 一种基于大数据的互联网新闻内容自动生成方法
CN116992854A (zh) * 2023-04-25 2023-11-03 云南大学 基于amr对比学习的文本摘要生成的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563987A (zh) * 2022-10-17 2023-01-03 北京中科智加科技有限公司 一种评论文本分析处理方法
CN115563972A (zh) * 2022-10-17 2023-01-03 北京中科智加科技有限公司 一种结构化的六联情感分析模型的训练方法
CN115934933A (zh) * 2023-03-09 2023-04-07 合肥工业大学 基于双端对比学习的文本摘要生成方法和系统
CN116483990A (zh) * 2023-04-24 2023-07-25 重庆邮电大学 一种基于大数据的互联网新闻内容自动生成方法
CN116992854A (zh) * 2023-04-25 2023-11-03 云南大学 基于amr对比学习的文本摘要生成的方法
CN116186420A (zh) * 2023-05-04 2023-05-30 南开大学 一种基于用户偏好的个性化新闻标题生成方法
CN116186420B (zh) * 2023-05-04 2023-06-27 南开大学 一种基于用户偏好的个性化新闻标题生成方法

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN106372187B (zh) 一种面向大数据的跨语言检索方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN111178053B (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN115270810A (zh) 一种基于句子相似度的意图识别装置和方法
CN113935308A (zh) 面向地球科学领域的文本摘要自动生成的方法和系统
Li et al. Research on image text generation based on word2vec visual vocabulary attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination