CN111782799B - 基于复制机制和变分神经推理的增强性文本摘要生成方法 - Google Patents
基于复制机制和变分神经推理的增强性文本摘要生成方法 Download PDFInfo
- Publication number
- CN111782799B CN111782799B CN202010611790.2A CN202010611790A CN111782799B CN 111782799 B CN111782799 B CN 111782799B CN 202010611790 A CN202010611790 A CN 202010611790A CN 111782799 B CN111782799 B CN 111782799B
- Authority
- CN
- China
- Prior art keywords
- text
- abstract
- model
- distribution
- variational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000001537 neural effect Effects 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 230000010076 replication Effects 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 29
- 238000000137 annealing Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 230000006872 improvement Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 230000009131 signaling function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于复制机制和变分神经推理的增强性文本摘要生成方法,其步骤包括:步骤S1:通过编码输入和输出序列;利用变分自编码器分别对原文本X=(x1,x2,…,xT)和文本对应的标准摘要Y=(y1,y2,…,yN)进行编码。即,将输入的原文词序列和标准摘要词序列编码成连续的词向量序列;步骤S2:对隐变量地近似后验分布进行建模;利用变分神经推理根据学习到的先验分布和近似后验概率得到隐变量z的表示;所述先验分布为pθ(z|x),所述近似后验概率为步骤S3:利用上下文语义向量、隐变量和生成复制网络函数解码得到生成的摘要。本发明具有原理简单、适用范围广、能够大幅优化文本摘要生成质量等优点。
Description
技术领域
本发明主要涉及到文本数据处理技术领域,特指一种基于复制机制和变分神经推理的增强性文本摘要生成方法。
背景技术
随着微博、微信公众号等新兴媒体的崛起,网络数字媒体代替了报纸等传统纸质媒体成为人们发布和获取信息的主要渠道。互联网的高速发展和各种移动终端设备的流行带来了网络中的电子文本信息的爆炸式增长,如何从海量的文本信息中快速获取到有效信息已经成为研究热点问题,文本摘要自动生成技术正是解决这一问题的核心。
自动文本摘要技术不仅能提高信息获取效率,更是对话系统、舆论分析等诸多上层应用的支撑技术。然而,目前该技术存在词语混乱重复、无法生成词表外词、模型在训练时产生退化和词句不够多样丰富流畅等问题。
在文本摘要生成的任务中,往往生成的文摘缺乏词句内容丰富度和多样性,因此有必要引入一些方法来解决文本摘要自动生成中存在词句不够丰富的问题。
有从业者提出过促进多样性的目标函数来增加多样性,另有从业者提出过利用集束搜索(Beam Search)的方法使模型在解码阶段生成长且丰富多样的文本,这些方法在缓解该问题上都有不错的效果。但是,所有的传统技术仍然在文本摘要生成过程中存在语句不够灵活、内容比较单一的问题,即仍然未能较好的解决该技术问题。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、适用范围广、能够大幅优化文本摘要生成质量的基于复制机制和变分神经推理的增强性文本摘要生成方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于复制机制和变分神经推理的增强性文本摘要生成方法,其步骤包括:
步骤S1:通过编码输入和输出序列;
利用变分自编码器分别对原文本X=(x1,x2,...,xT)和文本对应的标准摘要Y=(y1,y2,...,yN)进行编码。即,将输入的原文词序列和标准摘要词序列编码成连续的词向量序列;
步骤S2:对隐变量地近似后验分布进行建模;
利用变分神经推理根据学习到的先验分布和近似后验概率得到隐变量z的表示;所述先验分布为pθ(z|x),所述近似后验概率为
步骤S3:利用上下文语义向量、隐变量和生成复制网络函数解码得到生成的摘要。
作为本发明方法的进一步改进:在步骤S3中,利用变分神经解码器通过结合隐变量z、注意力机制和CopyNet中的信号函数ζ来指导文本摘要的生成,变分神经解码器为pθ(y|z,x,ζ)。
作为本发明方法的进一步改进:在步骤S1中,所述变分自编码器的作用是将输入的原文词序列和标准摘要词序列编码成连续的词向量序列。
作为本发明方法的进一步改进:所述变分自编码器采用的双向LSTM结构,包括前向LSTM和后向LSTM,分别对输入的文本和标准的文本摘要进行编码;前向LSTM从左到右读取输入单词序列X=(x1,x2,...,xT),后向LSTM从右到左读取,计算过程如下:
其中,和/>分别是前向LSTM和后向LSTM的隐藏层表示。同理,对于标准文本摘要的单词序列Y=(y1,y2,...,yN)可编码得到/>和/>然后,把每个时间步的前向和后向隐藏层编码进行拼接,得到最终输入输出的表示(h1,h2,...,hT)和(h′1,h′2,...,h′N),其中
作为本发明方法的进一步改进:所述步骤S2中,对变分自编码模型中隐变量z的后验分布进行建模,其处理方式为采用神经网络对先验分布pθ(z|x)和后验分布分别建模,迫使其服从于一个多元的高斯分布。
作为本发明方法的进一步改进:在变分推理过程中引入一个近似的后验分布来逼近真实的后验分布,即利用变分自编码器中密度估计器来进行对后验分布更逼近的近似,假定近似后验分布为:
其中μ表示均值,σ表示标准差,全部由模型输入文本x和该文本对应的标准文本摘要y的编码输出得到;
通过以上过程已经得到输入文本词序列X=(x1,x2,...,xT)和标准文本摘要词序列Y=(y1,y2,...,yN)的隐藏层表示,为(h1,h2,...,hT)和(h′1,h′2,...,h′N),接着最大池化隐藏层得到hx和hy:
最后,对hx和hy拼接处理得到h′z,即h′z=[hx,hy];利用线性回归对拼接的结果进行计算得出均值μ和对数方差拼接logσ2:
μ=Wμh′z+bμ,logσ2=Wσh′z+bσ
其中Wμ、Wσ表示权重参数,bμ、bσ表示偏置项。
作为本发明方法的进一步改进:在测试阶段,先验分布通过采样观测变量得到权值系数,先验分布中均值μ′和标准差σ′仅仅与输入文本序列X相关,表示为:
pθ=(z|x)=N(z;μ′(x),σ′(x)2I)
在求解先验分布时,除了h′z=hx,还有:
μ′=Wμ′hx+bμ′,logσ′2=Wσ′hx+bσ′
其中,Wμ′、Wσ′是权重参数,bμ′、bσ′是偏置项。
作为本发明方法的进一步改进:为了获得隐变量z的表示hz,通过参数的变化得到:
hz=μ+ε*σ,ε~N(0,I)
其中μ和σ是后验分布的均值和标准差,由于在测试阶段缺少标准文本摘要Y,所以从先验分布N(z;μ′(x),σ′(x)2I)中进行采样;再利用重参数的方法,将生成的模型pθ(z|x)与推理的模型联合在一起,也就是将编码器和解码器两个神经网络连接起来,实现随机梯度优化反向传播。
作为本发明方法的进一步改进:采用KL退火算法以及词袋损失算法BOW来优化Copy-VNAE模型。
与现有技术相比,本发明的优点在于:本发明的基于复制机制和变分神经推理的增强性文本摘要生成方法,原理简单、适用范围广、能够大幅优化文本摘要生成质量。通过实验结果证明该由本发明方法构建的模型可以解决文本摘要生成过程中摘要内容缺乏多样性的问题,并且加入CopyNet模型缓解文本摘要生成问题中无法生成词表外文本专有词的未登录词现象。对Copy-VNAE的训练分两个阶段:1)在模型预训练阶段,将变分自编码结合到基于RNN的基础Seq2seq模型中,利用变分自编码器的特点,即能利用其隐变量概率分布优势产生多种可能的输出。编码器对输入的原文和输入的标准摘要进行编码得到分布式表示之后变分推理利用隐变量的近似后验分布建模,以便后续训练中可以优化KL损失,使得近似后验分布逼近先验分布,最后变分解码器利用解码得到的上下文语义向量和隐变量族中解码得到生成摘要;2)第二阶段,在预训练阶段基础上,用CopyNet的复制/生成网络,融入原文专有词的信息,生成包含原文专有词的文本摘要,并结合KL退火算法对模型进行不同轮次的优化训练。实验数据与第三章相同,采用的是CNN/Daily Mail的数据集。实验的结果表明Copy-VNAE-KL-BOW模型不仅能生成准确率较高且包含原文专有词的文本摘要,同时在文本摘要的内容词句方面更加丰富多样,证实了VAE在处理文本摘要自动生成任务上有十分可观的质量提升效果。
附图说明
图1是本发明方法的流程示意图。
图2是在具体应用实例中采用本发明所构建模型的示意图。
图3是在具体应用实例中变分神经推理过程示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1、图2和图3所示,本发明的基于复制机制和变分神经推理的增强性文本摘要生成方法,其步骤包括:
步骤S1:通过编码输入和输出序列;
利用变分自编码器分别对原文本X=(x1,x2,...,xT)和文本对应的标准摘要Y=(y1,y2,...,yN)进行编码。即,将输入的原文词序列和标准摘要词序列编码成连续的词向量序列;
步骤S2:对隐变量地近似后验分布进行建模;
利用变分神经推理根据学习到的先验分布和近似后验概率得到隐变量z的表示;所述先验分布为pθ(z|x),所述近似后验概率为
步骤S3:利用上下文语义向量、隐变量和生成复制网络函数解码得到生成的摘要。
利用变分神经解码器(融合CopyNet的变分解码器)通过结合隐变量z、注意力机制和CopyNet中的信号函数ζ来指导文本摘要的生成,变分神经解码器为pθ(y|z,x,ζ)。
通过采用本发明的方法之后,构建得到一个基于复制机制和变分神经推理的增强性文本摘要生成模型,简称为Copy-VNAE,模型的变分下界为:
其中,表示近似后验概率,pθ(z|x)表示先验分布,pθ(y|z,x,ζ)表示在隐变量z和信号函数ζ的指导下的解码器,分别对应于图1中的三个模块。其中变分神经推理单元的过程图如图3所示。
如图1和图2所示,变分自编码器的作用是将输入的原文词序列和标准摘要词序列编码成连续的词向量序列。为了利用文本中的上下文相关信息即同时获取输入的历史和未来的数据信息,本发明在具体实施例中变分自编码器采用的是双向LSTM结构,包括前向LSTM和后向LSTM,分别对输入的文本和标准的文本摘要进行编码。前向LSTM从左到右读取输入单词序列X=(x1,x2,...,xT),后向LSTM从右到左读取,计算过程如下:
其中,和/>分别是前向LSTM和后向LSTM的隐藏层表示。同理,对于标准文本摘要的单词序列Y=(y1,y2,...,yN)可编码得到/>和/>然后,把每个时间步的前向和后向隐藏层编码进行拼接,得到最终输入输出的表示(h1,h2,...,hT)和(h′1,h′2,...,h′N),其中
在上述过程中,变分自编码器基于变分自编码原理(Variational Auto-Encoder,VAE),其是一种结合了神经网络和变分推理深度生成模型,模型主要是基于贝叶斯思想,故也可将其称为三层贝叶斯模型。该方法定义了灰度筛选器和圆特征筛选器这两个筛选器来剔除这些伪目标,对比传统的变分模型,灰度筛选器由深色区域占比判决器和灰度方差判决器组成;圆特征筛选器由弧长判决器和分布置信度组成。这两个筛选器成功的剔除了伪目标,同时保留了较为准确的真实目标轮廓。以此看出,VAE模型是一个更为强大的密度估计器,最后通过圆的位置分布信息判断一组圆是否属于同一个目标来进行圆的合并,VAE隐藏层空间服从的是一个分布而不是一个独点,这个特点使其可以从向量空间中生成更加多样化的数据。
在具体应用实例中,在步骤S2中,对变分自编码模型中隐变量z的后验分布进行建模,其处理方式为采用神经网络对先验分布pθ(z|x)和后验分布分别建模,迫使其服从于一个多元的高斯分布。
在上述过程中,生成模型的真实的后验分布无法计算得出,因此VAE在变分推理过程中引入一个近似的后验分布来逼近真实的后验分布。通常逼近方法采用平均场近似,但由于该方法过于简单,导致隐藏层变量z的真实分布很难获取。于是本发明在较佳实施中利用变分自编码器中优秀的密度估计器即神经网络来进行对后验分布更逼近的近似,假定近似后验分布为:
其中μ表示均值,σ表示标准差,全部由模型输入文本x和该文本对应的标准文本摘要y的编码输出得到。
通过以上过程已经得到输入文本词序列X=(x1,x2,...,xT)和标准文本摘要词序列Y=(y1,y2,...,yN)的隐藏层表示,为(h1,h2,...,hT)和(h′1,h′2,...,h′N),接着最大池化隐藏层得到hx和hy:
最后,对hx和hy拼接处理得到h′z,即h′z=[hx,hy]。利用线性回归对拼接的结果进行计算得出均值μ和对数方差拼接logσ2:
μ=Wμh′z+bμ,logσ2=Wσh′z+bσ
其中Wμ、Wσ表示权重参数,bμ、bσ表示偏置项。
在上述过程中,在模型的测试阶段,先验分布可以通过采样观测变量得到权值系数,这点不同于近似后验分布过程,于是先验分布中均值μ′和标准差σ′仅仅与输入文本序列X相关,可以表示为:
pθ=(z|x)=N(z;μ′(x),σ′(x)2I)
在求解先验分布时,本发明在具体应用实例中采用与后验分布相同的神经模型,除了h′z=hx,还有:
μ′=Wμ′hx+bμ′,logσ′2=Wσ′hx+bσ′
类似的,Wμ′、Wσ′是权重参数,bμ′、bσ′是偏置项。另外,可以得到完全独立的先验分布参数与后验分布参数。
为了获得隐变量z的表示hz,通过参数的变化得到:
hz=μ+ε*σ,ε~N(0,I)
其中μ和σ是后验分布的均值和标准差,由于在模型的测试阶段缺少标准文本摘要Y,所以本发明从先验分布N(z;μ′(x),σ′(x)2I)中进行采样。再利用重参数的方法,将生成的模型pθ(z|x)与推理的模型联合在一起,也就是将编码器和解码器两个神经网络连接起来,以此实现随机梯度优化反向传播。
本发明提出Copy-VNAE目的是使模型生成内容更加丰富多样且保留原文专用词的文本摘要。为了完成这个任务,本发明在Seq2seq模型的解码器中结合了能带来多样性的VAE中的隐变量hz以及引入CopyNet中的信号函数ζ。
在本发明具体实施例中,所使用的变分神经解码器是一个单向的LSTM,根据图2所示,在模型的解码阶段,对于某一时刻i,解码器的隐藏层si可以表示为:
si=LSTM(si-1,yi-1,ci,hz,ζ′i-1)
其中,si-1是上一时刻i-1的隐藏层状态,yi-1是上一时刻解码得的词向量,ci是当前时刻i的上下文向量表示,hz是隐变量z的变送hi,ζ′i-1是前一时刻的CopyNet信号状态。ζ′i-1的计算方式如下:
由上式可以看出如果前文摘要没有从原文摘录,向量ζi-1不携带信息。但是当文摘需要从原文中摘录时,ζi-1携带的信息就开始增加。这种增加就会影响到解码器隐状态si的更新,使模型倾向于在原文中选择摘要词。整个过程中,当摘要从原文选词后,会继续倾向于从原文选词。
在上述的模型中,求后验分布项的积分非常困难,于是进一步,本发明利用蒙特卡罗方法来对后验分布项期望进行近似,该近似过程如下:
其中的L是标准摘要样本的数量,为了便于运算,不妨假设L=1。于是,对于一个标准摘要样本,COPY-VNAE模型的训练目标为:
该目标函数为可导,于是可以利用梯度下降的方法同时优化推理模型和生成模型的参数和θ。
但是,在文本摘要自动生成模型中,如果把RNN的解码器和VAE直接结合,会导致难以通过隐变量编码得到比较有意义的信息的,这是由于RNN解码器属于规则函数的近似器,对于序列状数据信息拥有极强大的建模能力,这个特点使它在解码过程中能够在不应用隐变量信息的情况下对函数进行学习。因此,模型在优化目标的过程中,近似后验分布与先验分布之间的KL散度熵会逐步趋近于0,也就是近似后验分布大致上等同于先验分布,这意味着隐变量z不携带有价值的信息,那么Copy-VNAE模型将与一个基础的RNN模型无异,于是本发明进一步采取平衡重构损失和KL散度的方法来训练模型。
针对提到的隐变量z消失问题,已有解决方法如KL退火算法和字符级别的Dropout等。具体地,字符级别的Dropout是按照特定的概率将输入到模型中的单词设置为未知词(UNK),使标准文本摘要和原文的输入信息部分缺失,导致解码器的建模能力下降。由于在发明中解码器的解码能力有利于文本摘要生成,所以本发明并未选取字符级别的Dropout来缓解隐变量z消失的问题,而是选取KL退火算法以及词袋损失(BOW)算法来优化Copy-VNAE模型。
所述KL退火算法的本质是在模型训练阶段引入KL损失项的权重系数,避免KL损失在刚刚开始优化的时候就很快衰减至0。在模型训练的过程中,KL损失项的权重系数由0逐渐增大至特定阈值。于是,Copy-VNAE模型的目标函数L(n)可以改写成:
其中,α即是引入的KL损失项权重系数,通常将其定义成迭代权值函数。在模型训练的前期,由于α值比较小的缘故,使得模型倾向于省去KL损失项并且编码过多信息输入结合于隐变量z,接着随着α值逐渐增大,模型慢慢倾向于优化KL损失项并使其后验分布近似期望逐渐逼近于模型前期得到的先验分布。KL退火算法通过加入权重系数使模型从确定的自编码模型逐步转变为变分自编码模型。
此外,针对隐变量z的问题,在引入KL退火算法之后,本发明还进一步提出了在以上模型基础上再加入词袋损失(Bag-of-Word,简称BOW)算法来提升模型,使其更好优化重构损失。BOW算法的内涵核心是将一个辅助损失注入模型训练目标的过程,其本质是对重构损失的权重系数进行增大改造,使得训练中的模型倾向于忽略KL损失项并偏重于优化重构损失项。另外,加入的辅助损失在模型进行解码阶段可以预测生成的文本摘要中较大概率词语。本发明通过隐变量z来获取生成目标文本摘要的全模数据,对于每一时刻的辅助损失项p(ybow|z,x)计算如下:
p(ybow|z,x)=fauxiliary(z,x)
其中,fauxiliary=MLP(z|x)∈Rv,其中V表示词表的大小。而模型的最终目标函数是在此前模型中加入Bag-of-Word损失项,目标函数计算如下:
本发明在一个具体应用实例中的实验是在谷歌Deep Mind团队的Hermann等人于2015发布的CNN/Daily Mail数据集上进行测试。该数据集由美国有线新闻网(CNN)和每日邮报(Daily Mail)的新闻,及其摘要组成,共包含287336个训练对,13368个校验对和11490测试对。在实验中,设置词向量维度为300维,另外训练模型过程中将对词向量进行持续优化。
优化词向量算法时,学习率大小设置为0.025。并行乘加器3×3的卷积核意味着需要三个并行乘加器,其串行输入端乘法器参数multipuler设置为3,则相应的有三个乘法系数输入端datab_0、datab_1和datab_2,即为高斯卷积核中一行像素矩阵对应的三个参数。用PA并行结构加法器将乘加运算后的三个结果相加,最后只需将所得结果进行移位操作即可。预训练模型阶段,先用KL退火算法训练模型20轮,对其自动评估之后接着在预训练基础上加入CopyNet模型信号函数,将模型继续训练5轮再进行一次指标评估。
本发明的评估基于变分自编码实现的文本摘要自动生成模型的生成结果的方法是两种定义的自动评价标准。
1)多样性指标;
本发明采用的评价标准为ROUGE评价标准,即ROUGE-1、ROUGE-2和ROUGE-L。另外,为了判断摘要内容的多样性,加入计算不同一元组(Distinct-1)指标和二元组(Distinct-2)之变来评估生成摘要中词句的多样性。首先通过统计得出标准文摘中不同的一元组和二元组的数目,将其与生成摘要的一元组和二元组总数目相除得到评价值Distinct-1和Distinct-2。评价标准Distinct-1和Distinct-2数值越大说明生成的文本摘要中包含的内容越具有多样性。表1展示了实验的结果,值得一提的是Copy-VNAE-KL(25轮)是本发明提出的Copy-VNAE利用了KL退火算法以及在预训练的基础上融入了CopyNet模型的生成/复制网络信号函数因素继续训练5轮后实现的模型。如表1所示,Copy-VNAE-KL(25轮)的总体效果最优。相比于基于主题模型的文本摘要生成模型(TA-TSG),Copy-VNAE-KL(25轮)模型在Distinct-1和Distinct-2标准上的每种不同态度类别的结果都有一定的提高。在Distinct-1方面,例如,在态度类别为“积极”时,相比于TA-TSG,Copy-VNAE-KL(25轮)从0.076提高到了0.100。同样,在Distinct-2指标上,例如,在态度类别为“消极”时,相比于TA-TSG,Copy-VNAE-KL(25轮)从0.171提高到了0.315。与经典的优秀自动文摘模型RAS模型相比,通过本发明方法构建的模型在Distinct-1方面平均值是其2.2倍,在Distinct-2的指标上从0.184提升到了0.472。通过表中数据对比可以看出,在Seq2seq结合VAE后,新模型生成的摘要在多样性方面相比其他模型有显著的提升,证明了VAE的解码随机特性十分适用于文本摘要生成模型,同时也说明隐变量确实可以指导生成模型。
表1不同态度类别的自动评估结果
本发明在模型训练后阶段还引入了BOW损失对其进行优化,并对结合BOW的Copy-VNAE-KL-BOW模型进行了实验和评估。在表2中,模型Copy-VNAE-KL-BOW表示在Copy-VNAE-KL(25轮)模型基础上加入了BOW损失的优化模型,Copy-VNAE-KL(20轮)表示在预训练阶段只加入了KL权重并退火20轮次的模型,如表2所示,模型Copy-VNAE-KL-BOW生成的摘要内容的多样性比Copy-VNAE-KL的两个模型有明显提升,说明BOW损失结合KL权重的优化方式可以更好地缓解隐变量消失的问题,更利于模型优化重构损失。值得一提的是,相比于Copy-VNAE-KL(20轮)模型,引入CopyNet模型的复制/生成网络信号函数因素之后的模型在多样性评分上有了轻微下降,这是由于Copy-VNAE-KL(25轮)模型在对输出进行解码时须结合考虑内容多样性以及特定专有名词向量,导致生成摘要不如未包含CopyNet的模型丰富,但也恰巧证明加入了CopyNet模型确实可以有效解决模型中的未登录词问题。
表2不同态度类别的自动评估结果
2)ROUGE指标
为了测评Copy-VNAE-KL(25轮)模型生成文本摘要的在标准文本评价指标的效果,本发明将其与其他主流生成式文本摘要模型对比,并增加TA-TSG和TAC-TSG与其对比。其中的主流模型选择评分较高的Abs+(FullAbs)以及RAS(Recurrent Attentive Summarizer),后两种模型为本发明方法搭建的新模型,Copy-VNAE-KL(25轮)和Copy-VNAE-KL-BOW。在ROUGE标准的指标上TAC-TSG的总体评分最高,Copy-VNAE-KL(25轮)在ROUGE-1指标上评分最高,而Copy-VNAE-KL-BOW在ROUGE-2和ROUGE-L指标上高于Copy-VNAE-KL(25轮)且略低于TAC-TSG,但是考虑到多样性的问题,Copy-VNAE-KL-BOW模型的总体效果最优。相比于TAC-TSG模型,Copy-VNAE-KL-BOW模型在ROUGE-2标准上有一定的提高。在ROUGE-1和ROUGE-L指标上,TAC-TSG表现相对优秀,这些对比表明,模型在加入VAE之后,生成的文本摘要在多样性方面显著优于其他模型,准确率和原文相关性也高于经典模型但是不及加入主题模型的TAC-TSG模型,这是因为引入了VAE从而有了更多的随机性,降低了原文相关性。
表3生成式文本摘要模型效果对比
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (6)
1.一种基于复制机制和变分神经推理的增强性文本摘要生成方法,其特征在于,步骤包括:
步骤S1:通过编码输入和输出序列;
利用变分自编码器分别对原文本X=(x 1, x 2,..., x T)和文本对应的标准摘要Y=(y 1,y 2,..., y N)进行编码;即,将输入的原文词序列和标准摘要词序列编码成连续的词向量序列;在步骤S1中,所述变分自编码器的作用是将输入的原文词序列和标准摘要词序列编码成连续的词向量序列;所述变分自编码器采用的双向LSTM结构,包括前向LSTM和后向LSTM,分别对输入的文本和标准的文本摘要进行编码;前向LSTM从左到右读取输入单词序列X=(x 1, x 2,..., x T),后向LSTM从右到左读取,计算过程如下:
其中,和/>分别是前向LSTM和后向LSTM的隐藏层表示;同理,对于标准文本摘要的单词序列Y=(y 1, y 2,..., y N)可编码得到/>和/>;然后,把每个时间步的前向和后向隐藏层编码进行拼接,得到最终输入输出的表示(h 1, h 2,..., h T)和(/>,/>,...,/>),其中h i=[/>,],/>=[/>,/>];
步骤S2:对隐变量z的近似后验分布进行建模;
利用变分神经推理根据学习到的先验分布和近似后验概率得到隐变量z的表示;所述先验分布为,所述近似后验概率为/>;
所述步骤S2中,对变分自编码模型中隐变量z的后验分布进行建模,其处理方式为采用神经网络对先验分布和后验分布/>分别建模,迫使其服从于一个多元的高斯分布;
步骤S3:利用上下文语义向量、隐变量和生成复制网络函数解码得到生成的摘要。
2.根据权利要求1所述的基于复制机制和变分神经推理的增强性文本摘要生成方法,其特征在于,在步骤S3中,利用变分神经解码器通过结合隐变量z、注意力机制和CopyNet中的信号函数ζ来指导文本摘要的生成,变分神经解码器为。
3.根据权利要求1所述的基于复制机制和变分神经推理的增强性文本摘要生成方法,其特征在于,在变分推理过程中引入一个近似的后验分布来逼近真实的后验分布,即利用变分自编码器中密度估计器来进行对后验分布更逼近的近似,假定近似后验分布为:
其中表示均值,/>表示标准差,全部由模型输入文本x和该文本对应的标准文本摘要y的编码输出得到;
通过以上过程已经得到输入文本词序列X=(x 1, x 2,..., x T)和标准文本摘要词序列Y=(y 1, y 2,..., y N)的隐藏层表示,为(h 1, h 2,..., h T)和(,/>,...,/>),接着最大池化隐藏层得到h x和h y:
最后,对h x和h y拼接处理得到,即/>=[h x , h y];利用线性回归对拼接的结果进行计算得出均值/>和对数方差拼接/>:
其中表示权重参数,/>表示偏置项。
4.根据权利要求3所述的基于复制机制和变分神经推理的增强性文本摘要生成方法,其特征在于,在测试阶段,先验分布通过采样观测变量得到权值系数,先验分布中均值和标准差/>仅仅与输入文本序列X相关,表示为:
在求解先验分布时,除了,还有:
其中,是权重参数,/>是偏置项。
5.根据权利要求4所述的基于复制机制和变分神经推理的增强性文本摘要生成方法,其特征在于,为了获得隐变量z的表示h z,通过参数的变化得到:
其中和/>是后验分布的均值和标准差,由于在测试阶段缺少标准文本摘要Y,所以从先验分布/>中进行采样;再利用重参数的方法,将生成的模型/>与推理的模型/>联合在一起,也就是将编码器和解码器两个神经网络连接起来,实现随机梯度优化反向传播。
6.根据权利要求1或2所述的基于复制机制和变分神经推理的增强性文本摘要生成方法,其特征在于,采用KL退火算法以及词袋损失算法BOW来优化Copy-VNAE模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611790.2A CN111782799B (zh) | 2020-06-30 | 2020-06-30 | 基于复制机制和变分神经推理的增强性文本摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611790.2A CN111782799B (zh) | 2020-06-30 | 2020-06-30 | 基于复制机制和变分神经推理的增强性文本摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782799A CN111782799A (zh) | 2020-10-16 |
CN111782799B true CN111782799B (zh) | 2023-11-10 |
Family
ID=72760395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010611790.2A Active CN111782799B (zh) | 2020-06-30 | 2020-06-30 | 基于复制机制和变分神经推理的增强性文本摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782799B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818113A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于异构图网络的文本自动摘要方法 |
CN113516170B (zh) * | 2021-05-19 | 2023-05-23 | 电子科技大学 | 基于贝叶斯神经网络随机加法饱和结构的图像分类方法 |
CN113611367B (zh) * | 2021-08-05 | 2022-12-13 | 湖南大学 | 一种基于VAE数据增强的CRISPR/Cas9脱靶预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1284454A2 (en) * | 2001-08-17 | 2003-02-19 | Sun Microsystems, Inc. | Method and apparatus for simulation system compiler |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及系统 |
CN110737769A (zh) * | 2019-10-21 | 2020-01-31 | 南京信息工程大学 | 一种基于神经主题记忆的预训练文本摘要生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11507064B2 (en) * | 2016-05-09 | 2022-11-22 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for industrial internet of things data collection in downstream oil and gas environment |
-
2020
- 2020-06-30 CN CN202010611790.2A patent/CN111782799B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1284454A2 (en) * | 2001-08-17 | 2003-02-19 | Sun Microsystems, Inc. | Method and apparatus for simulation system compiler |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及系统 |
CN110737769A (zh) * | 2019-10-21 | 2020-01-31 | 南京信息工程大学 | 一种基于神经主题记忆的预训练文本摘要生成方法 |
Non-Patent Citations (1)
Title |
---|
卷积自注意力编码过滤的强化自动摘要模型;徐如阳;曾碧卿;韩旭丽;周武;;小型微型计算机系统(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111782799A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782799B (zh) | 基于复制机制和变分神经推理的增强性文本摘要生成方法 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
CN111078866B (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
CN109977212A (zh) | 对话机器人的回复内容生成方法和终端设备 | |
CN111242033B (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN111897930A (zh) | 一种自动问答方法与系统、智能设备及存储介质 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN111310411B (zh) | 一种基于多样性模型的文本相关性判定方法、装置和设备 | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114912020A (zh) | 一种基于用户偏好图的多子目标对话推荐方法 | |
CN116343109A (zh) | 基于自监督掩码模型和跨模态码本的文本行人搜索方法 | |
CN113656542A (zh) | 一种基于信息检索与排序的话术推荐方法 | |
CN108763198A (zh) | 一种生成式的学术论文中相关工作的自动产生方法 | |
CN112906820A (zh) | 基于遗传算法的对抗卷积神经网络句子相似度计算方法 | |
CN116681078A (zh) | 一种基于强化学习的关键词生成方法 | |
CN115495579A (zh) | 5g通信助理文本分类的方法、装置、电子设备及存储介质 | |
CN112784036A (zh) | 基于无监督集成学习的抽取式文本摘要方法 | |
Lin et al. | Predict emoji combination with retrieval strategy | |
CN111709245A (zh) | 基于语义自适应编码的汉-越伪平行句对抽取方法 | |
CN113378567B (zh) | 一种针对低频词进行改善的中文短文本分类方法 | |
CN116541505B (zh) | 一种基于自适应对话分割的对话摘要生成方法 | |
CN117807995B (zh) | 一种情绪引导的摘要生成方法、系统、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |