CN111708877B - 基于关键信息选择和变分潜在变量建模的文本摘要生成法 - Google Patents

基于关键信息选择和变分潜在变量建模的文本摘要生成法 Download PDF

Info

Publication number
CN111708877B
CN111708877B CN202010312799.3A CN202010312799A CN111708877B CN 111708877 B CN111708877 B CN 111708877B CN 202010312799 A CN202010312799 A CN 202010312799A CN 111708877 B CN111708877 B CN 111708877B
Authority
CN
China
Prior art keywords
vector
hidden layer
key information
layer state
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010312799.3A
Other languages
English (en)
Other versions
CN111708877A (zh
Inventor
黄晓
滕蔚
林嘉良
保延翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010312799.3A priority Critical patent/CN111708877B/zh
Publication of CN111708877A publication Critical patent/CN111708877A/zh
Application granted granted Critical
Publication of CN111708877B publication Critical patent/CN111708877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供一种基于关键信息选择和变分潜在变量建模的文本摘要生成法,该方法在编码器和解码器之间设置关键信息选择网络,控制编码器和解码器之间信息流的传递,达到选择核心的关键信息,提高编码器效率,并且过滤掉冗余信息,减轻解码器负担。同时,关键信息选择网络选择出对生成摘要核心的关键信息,以提高注意力的权重,减轻生成摘要的词语重复问题以及缓解未登录词问题,大幅提高了生成摘要的质量。利用VAE对变分潜在变量建模,获取摘要句子深层次潜在特征。通过在KL散度项之前加一个超参数系数β对VAE损失函数进行再平衡,消除VAE在训练过程中KL散度项消失,有效防止VAE网络退化,使得模型生成更精确的摘要。

Description

基于关键信息选择和变分潜在变量建模的文本摘要生成法
技术领域
本发明涉及自然语言处理的自动文摘领域,更具体地,涉及一种基于关键信息选择和变分潜在变量建模的文本摘要生成法。
背景技术
文本摘要生成是自然语言处理中一项重要的研究任务。随着科技的发展,微博、微信公众号等社交工具兴起,现在社会已经进入到文字信息爆炸时代,人们如何能迅速从一段文字中获取有效信息已经成为一个迫切需求。自动文摘技术是指给定一段源文本,将源文本的主要内容和关键信息自动归纳,提炼出一句概括源文本内容的句子作为摘要。
自动文摘技术主要包括提取式和生成式两个方面。提取式的自动文摘是从源文本中直接抽取相关短语或者相关句子组成一个句子作为摘要。生成式的自动文摘则是根据源文本的关键信息重新生成一个新的句子作为摘要。生成式自动文摘一般都采用序列到序列模型。序列到序列模型自动生成简单的摘要,但是生成出来的摘要质量不高,一般存在着生成摘要语序混乱,存在着未登陆词和重复问题,严重影响生成摘要的质量。
发明内容
本发明提供一种编码器效率高的基于关键信息选择和变分潜在变量建模的文本摘要生成法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于关键信息选择和变分潜在变量建模的文本摘要生成法,包括以下步骤:
S1:将输入的源文本X={x1,x2,…,xT}首先映射成随机初始化的词向量,其中T为输入文本的长度,按顺序输入Bi-GRU经过的编码;
S2:设置关键信息选择网络,选择出编码器输出中有效的关键信息内容;
S3:在解码阶段引入变分思想对变分潜在变量建模,并且对损失函数再平衡,提取摘要句子的全局潜在信息来生成摘要。
进一步地,所述步骤S1的具体过程是:
将输入的源文本X={x1,x2,…,xT}首先映射成随机初始化的词向量,其中T为输入文本的长度,按顺序输入Bi-GRU经过的编码,Bi-GRU包括了前向传播和反向传播:
Figure GDA0002619185190000021
Figure GDA0002619185190000022
其中,h→_t为前向方向输出的隐藏层状态,h←_t为后向方向输出的隐藏层状态;
将每个时刻的两个方向的输出连接得到编码器每个时刻的隐藏层状态:
Figure GDA0002619185190000023
进一步地,所述步骤S2中,设置关键信息选择网络,选择出编码器输出中有效的关键信息内容。在关键信息选择网络中,根据编码阶段输出的隐藏层状态向量
Figure GDA0002619185190000024
和句子表征向量S设计出控制信息流的门控单元
Figure GDA0002619185190000025
来对原本编码器的输出隐藏层状态
Figure GDA0002619185190000026
进行信息选择,指定有效的信息范围,得到经过信息选择后的隐藏层变量
Figure GDA0002619185190000027
句子表征向量S是由编码器的前向传播的最后一个词的隐藏层状态和后向传播的第一个词的隐藏层状态拼接成一个固定长度的句子表征向量,这样拼接使得句子的关键信息压缩成一个固定的向量,S的表示如下:
Figure GDA0002619185190000028
其中,
Figure GDA0002619185190000029
为编码器的前向传播的最后一个词的隐藏层状态,
Figure GDA00026191851900000210
后向传播的第一个词的隐藏层状态。
进一步地,所述步骤S2中,将编码阶段输出的隐藏层状态向量
Figure GDA00026191851900000211
和句子表征向量S作为选择阶段的输入,计算出门控单元向量
Figure GDA00026191851900000212
Figure GDA00026191851900000213
其中,
Figure GDA00026191851900000214
为i时刻的编码阶段输出的隐藏层状态向量,S为句子表征向量,
Figure GDA00026191851900000215
Figure GDA00026191851900000216
为可训练的权重矩阵,bs为偏置向量,sigmoid(·)是激活函数;
接下来,将编码阶段的输出
Figure GDA00026191851900000217
经过
Figure GDA00026191851900000218
进行关键信息选择,得到一个新的隐藏层状态:
Figure GDA0002619185190000031
其中,⊙为点积,
Figure GDA0002619185190000032
为i时刻的编码阶段输出的隐藏层状态向量,
Figure GDA0002619185190000033
为i时刻的门控单元向量。
进一步地,
Figure GDA0002619185190000034
的取值范围介于0和1之间;如果取值接近0,选择门将过滤掉对应隐层状态上的大部分信息;如果取值接近1,选择门将保留大部分信息,以达到对核心的关键信息的选择和无效信息的过滤。
进一步地,在解码阶段引入变分思想对变分潜在变量建模,并且对损失函数再平衡,提取摘要句子的全局潜在信息来生成摘要;解码器采用两层Bi-GRU,第一层隐藏层状态
Figure GDA0002619185190000035
计算方式如下:
Figure GDA0002619185190000036
其中,yt-1为前一个时刻解码器的输出,
Figure GDA0002619185190000037
为前一个时刻第一层隐藏层状态;
通过注意力机制获取上下文语义向量Ct。利用当前时刻的第一层隐藏层状态状态
Figure GDA0002619185190000038
与选择阶段得到的隐藏层状态
Figure GDA0002619185190000039
进行匹配,计算获取各个结点隐藏层状态的注意力权重,将获得的注意力权重经过归一化,并进行加权求和得到当前时刻上下文语义向量Ct,注意力机制的计算方式如下:
Figure GDA00026191851900000310
Figure GDA00026191851900000311
Figure GDA00026191851900000312
其中,
Figure GDA00026191851900000313
Figure GDA00026191851900000314
为权重矩阵,ba为偏置。
进一步地,所述步骤S3中,与第一层不同的是,第二层隐藏层状态
Figure GDA00026191851900000315
是将前一个时刻解码器的输出yt-1、前一个时刻第二层隐藏层状态
Figure GDA00026191851900000316
和上下文语义向量Ct作为输入来计算:
Figure GDA00026191851900000317
其中,yt-1为前一个时刻解码器的输出,
Figure GDA00026191851900000318
为前一个时刻第二层隐藏层状态,Ct为上下文语义向量;
变分潜在变量建模实际是一个变分编码过程,利用t时刻之前解码器的输出y<t和潜在变量z<t得到一个后验分布
Figure GDA0002619185190000041
并假设这个分布为正态分布。用
Figure GDA0002619185190000042
来近似真实的后验分布
Figure GDA0002619185190000043
并从
Figure GDA0002619185190000044
采样出潜在变量zt,由于采样的过程不可导,采样的结果可导,为了保证模型训练,采用重构参数技巧获得新的潜在变量zt
Figure GDA0002619185190000045
其中,ε~N(0,I)为噪声变量,高斯参数μt和σt分别为变分均值和标准差。
进一步地,所述步骤S3中,在生成摘要的过程中引入句子全局潜在信息,将潜在变量zt和第二层隐藏层状态
Figure GDA0002619185190000046
结合作为最终的解码器的隐藏层状态
Figure GDA0002619185190000047
Figure GDA0002619185190000048
其中,
Figure GDA0002619185190000049
Figure GDA00026191851900000410
为可训练的权重矩阵,
Figure GDA00026191851900000411
为偏置向量,tanh(·)为激活函数;
将最终解码器的隐藏层状态
Figure GDA00026191851900000412
经过线性变换后输入至softmax层获得目标词汇yt的概率分布,计算方式如下:
Figure GDA00026191851900000413
其中,
Figure GDA00026191851900000414
为可训练的权重矩阵,
Figure GDA00026191851900000415
为偏置向量。
进一步地,通过最小化损失函数来训练模型和优化参数,损失函数由生成摘要目标词汇的负的对数似然和变分潜在变量建模时VAE的损失函数组成;生成摘要目标词汇的负的对数似然表示如下:
Figure GDA00026191851900000416
变分潜在变量建模时VAE的损失函数由KL散度和重构误差两部分组成:
Figure GDA00026191851900000417
由于VAE网络在训练时,轻视了重构误差的严重性,两个损失处于不平衡状态,这样会导致严重的KL散度项消失问题,使得VAE网络退化,因此对VAE损失函数进行再平衡,在KL散度项之前加一个超参数系数β来修复这种不平衡:
Figure GDA0002619185190000051
其中,,0≤β<1,最终的损失函数为:
loss=lossword+lossVAE′
与现有技术相比,本发明技术方案的有益效果是:
本发明在编码器和解码器之间设置关键信息选择网络,控制编码器和解码器之间信息流的传递,达到选择核心的关键信息,提高编码器效率,并且过滤掉冗余信息,减轻解码器负担。同时,关键信息选择网络选择出对生成摘要核心的关键信息,以提高注意力的权重,减轻生成摘要的词语重复问题以及缓解未登录词问题,大幅提高了生成摘要的质量。利用VAE对变分潜在变量建模,获取摘要句子深层次潜在特征。通过在KL散度项之前加一个超参数系数β对VAE损失函数进行再平衡,消除VAE在训练过程中KL散度项消失,有效防止VAE网络退化,使得模型生成更精确的摘要。
附图说明
图1本方法整体架构图;
图2数据预处理流程图;
图3选择门网络结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于关键信息选择和变分潜在变量建模的文本摘要生成方法,即对于给定的源文本序列X={x1,x2,…,xT}作为输入,生成目标摘要句子Y={y1,y2,…,yn}。方法的整体框架图如图1,总共包含三部分:编码部分,关键信息选择部分,解码部分。该方法的编码器采用双向的门控循环单元(Bidirectional-Gated Recurrent Unit,Bi-GRU)作为基本编码器对输入序列的进行建模。在编码器和解码器之间设置关键信息选择网络,控制关键信息流在编码器和解码器之间的传递。该方法的解码器由两部分组成。解码器的第一部分是GRU解码部分,采用两层Bi-GRU,第一层主要用于注意力机制权重的计算以及之后隐变量的建模;第二层则引入注意力机制的结果,用于计算并得到GRU解码部分的隐藏层的确定变量。解码器的第二部分是变分潜在变量建模部分,对第一层Bi-GRU每个时间点输出利用VAE重新构造一个隐变量作为变分变量,以挖掘句子的特征和全局信息。变分变量和确定变量共同映射成一个新变量作为整个模型最终输出的变量解码输出,生成语序通顺,语义精确的文本摘要。另外,在训练过程中通过对损失函数再平衡,消除KL散度项消失的情况,解决VAE退化问题。这里以哈工大公开的新浪微博大规模中文短文本摘要数据集(Large-scaleChinese Short Text Summarization,LCSTS)为例进行阐述。
首先进行数据预处理,如图2所示。原始LCSTS数据集是源文本-源摘要句子对这样的形式。从里边提取出源文本和源摘要,分别写入源文件和源摘要文件。源文本和源摘要都会含有一些类似于标点符号,日期等特殊字符,这里采取删除的方式进行处理。接下来将处理过的文本,以字为单位进行分词,分别构建源文本词典和源摘要词典,以字为单位的好处就是避免分词错误带来的误差。最后,采用随机初始化词向量的方法将词典里的词映射成词向量的形式,得到向量化的源文本词典和源摘要词典。
然后,根据输入的源文本内容X={x1,x2,…,xT},在词典里索引分别获得对应的词向量,词向量的形式按顺序输入Bi-GRU经过的编码。Bi-GRU包括了前向传播和反向传播,如下所示:
Figure GDA0002619185190000061
Figure GDA0002619185190000062
其中,
Figure GDA0002619185190000063
为前向方向输出的隐藏层状态,
Figure GDA0002619185190000064
为后向方向输出的隐藏层状态。
将每个时刻的两个方向的输出连接得到编码器每个时刻的隐藏层状态:
Figure GDA0002619185190000065
接下来进入关键信息选择阶段,设置关键信息选择网络,选择出编码器输出中有效的关键信息内容。在关键信息选择网络中,根据编码阶段输出的隐藏层状态向量
Figure GDA0002619185190000066
和句子表征向量S设计出控制信息流的门控单元
Figure GDA0002619185190000067
来对原本编码器的输出隐藏层状态
Figure GDA0002619185190000068
进行信息选择,指定有效的信息范围,得到经过信息选择后的隐藏层变量
Figure GDA0002619185190000071
如图3所示。
句子表征向量S是由编码器的前向传播的最后一个词的隐藏层状态和后向传播的第一个词的隐藏层状态拼接成一个固定长度的句子表征向量。这样拼接使得句子的关键信息压缩成一个固定的向量。S的表示如下:
Figure GDA0002619185190000072
其中,
Figure GDA0002619185190000073
为编码器的前向传播的最后一个词的隐藏层状态,
Figure GDA0002619185190000074
后向传播的第一个词的隐藏层状态。
将编码阶段输出的隐藏层状态向量
Figure GDA0002619185190000075
和句子表征向量S作为输入,计算出门控单元向量
Figure GDA0002619185190000076
Figure GDA0002619185190000077
其中,
Figure GDA0002619185190000078
为i时刻的编码阶段输出的隐藏层状态向量,S为句子表征向量,
Figure GDA0002619185190000079
Figure GDA00026191851900000710
为可训练的权重矩阵,bs为偏置向量,sigmoid(·)是激活函数。
接下来,将编码阶段的输出
Figure GDA00026191851900000711
经过
Figure GDA00026191851900000712
进行关键信息选择,得到一个新的隐藏层状态:
Figure GDA00026191851900000713
其中,⊙为点积,
Figure GDA00026191851900000714
为i时刻的编码器输出的隐藏层状态向量,
Figure GDA00026191851900000715
为i时刻的门控单元向量。
Figure GDA00026191851900000716
的取值范围介于0和1之间。如果取值接近0,选择门将过滤掉对应隐层状态上的大部分信息;如果取值接近1,选择门将保留大部分信息,以达到对核心的关键信息的选择和无效信息的过滤。
再接下来进入解码阶段引入变分思想对变分潜在变量建模,并且对损失函数再平衡,提取摘要句子的全局潜在信息来生成摘要。
的解码器采用两层Bi-GRU,第一层隐藏层状态
Figure GDA00026191851900000717
计算方式如下:
Figure GDA00026191851900000718
其中,yt-1为前一个时刻解码器的输出,
Figure GDA00026191851900000719
为前一个时刻第一层隐藏层状态。
通过注意力机制获取上下文语义向量Ct。利用当前时刻的第一层隐藏层状态状态
Figure GDA0002619185190000081
与选择阶段得到的隐藏层状态
Figure GDA0002619185190000082
进行匹配,计算获取各个结点隐藏层状态的注意力权重。将获得的注意力权重经过归一化,并进行加权求和得到当前时刻上下文语义向量Ct,注意力机制的计算方式如下:
Figure GDA0002619185190000083
Figure GDA0002619185190000084
Figure GDA0002619185190000085
其中,
Figure GDA0002619185190000086
Figure GDA0002619185190000087
为权重矩阵,ba为偏置。
与第一层不同的是,第二层隐藏层状态
Figure GDA0002619185190000088
是将前一个时刻解码器的输出yt-1、前一个时刻第二层隐藏层状态
Figure GDA0002619185190000089
和上下文语义向量Ct作为输入来计算:
Figure GDA00026191851900000810
其中,yt-1为前一个时刻解码器的输出,
Figure GDA00026191851900000811
为前一个时刻第二层隐藏层状态,Ct为上下文语义向量。
变分潜在变量建模实际是一个变分编码过程,利用t时刻之前解码器的输出y<t和潜在变量z<t得到一个后验分布
Figure GDA00026191851900000812
并假设这个分布为正态分布。用
Figure GDA00026191851900000813
来近似真实的后验分布
Figure GDA00026191851900000814
并从
Figure GDA00026191851900000815
采样出潜在变量zt。由于采样的过程不可导,采样的结果可导,为了保证模型训练,采用重构参数技巧获得新的潜在变量zt
Figure GDA00026191851900000816
其中,ε~N(0,I)为噪声变量,高斯参数μt和σt分别为变分均值和标准差。
为了在提高生成摘要的质量,在生成摘要的过程中引入句子全局潜在信息,将潜在变量zt和第二层隐藏层状态
Figure GDA00026191851900000817
结合作为最终的解码器的隐藏层状态
Figure GDA00026191851900000818
Figure GDA00026191851900000819
其中,
Figure GDA00026191851900000820
Figure GDA00026191851900000821
为可训练的权重矩阵,
Figure GDA00026191851900000822
为偏置向量,tanh(·)为激活函数。
最后,将最终解码器的隐藏层状态
Figure GDA0002619185190000091
经过线性变换后输入至softmax层获得目标词汇yt的概率分布,计算方式如下:
Figure GDA0002619185190000092
其中,
Figure GDA0002619185190000093
为可训练的权重矩阵,
Figure GDA0002619185190000094
为偏置向量。
这个方法通过最小化损失函数来训练模型和优化参数,损失函数由生成摘要目标词汇的负的对数似然和变分潜在变量建模时VAE的损失函数组成。
生成摘要目标词汇的负的对数似然表示如下:
Figure GDA0002619185190000095
变分潜在变量建模时VAE的损失函数由KL散度和重构误差损失两部分组成:
Figure GDA0002619185190000096
由于VAE网络在训练时,轻视了重构误差的严重性,两个损失处于不平衡状态,这样会导致严重的KL散度项消失问题,使得VAE网络退化,因此对VAE损失函数进行再平衡,在KL散度项之前加一个超参数系数β来修复这种不平衡:
Figure GDA0002619185190000097
所以最终的损失函数为:
loss=lossword+lossVAE′
综上所述,本发明提供了一种基于关键信息选择和变分潜在变量建模的文本摘要生成方法。该方法基于序列到序列框架下,结合变分自编码器(Variational Auto-Encoder,VAE)和选择机制的思想对摘要句子进行建模提取摘要句子潜在特征,设计关键信息选择网络,选择有效的关键信息流进行传播。该方法主要包括编码器、关键信息选择网络和解码器。该方法的编码器采用双向的门控循环单元(Bidirectional-Gated RecurrentUnit,Bi-GRU)作为基本编码器对输入序列的进行建模。在编码器和解码器之间设置关键信息选择网络,控制关键信息流在编码器和解码器之间的传递。该方法的解码器由两部分组成。解码器的第一部分是GRU解码部分,采用两层Bi-GRU,第一层主要用于注意力机制权重的计算以及之后隐变量的建模;第二层则引入注意力机制的结果,用于计算并得到GRU解码部分的隐藏层的确定变量。解码器的第二部分是变分潜在变量建模部分,对第一层Bi-GRU每个时间点输出利用VAE重新构造一个隐变量作为变分变量,以挖掘句子的特征和全局信息。变分变量和确定变量共同映射成一个新变量作为整个模型最终输出的变量解码输出,生成语序通顺,语义精确的文本摘要。另外,在训练阶段通过对损失函数再平衡,消除KL散度项消失的情况,解决VAE退化问题。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于关键信息选择和变分潜在变量建模的文本摘要生成法,其特征在于,包括以下步骤:
S1:将输入的源文本X={x1,x2,…,xt}首先映射成随机初始化的词向量,其中T为输入文本的长度,按顺序输入Bi-GRU经过的编码;
S2:设置关键信息选择网络,选择出编码器输出中有效的关键信息内容;
所述步骤S2中,设置关键信息选择网络,选择出编码器输出中有效的关键信息内容,在关键信息选择网络中,根据编码阶段输出的隐藏层状态向量
Figure FDA0004081721910000011
和句子表征向量S设计出控制信息流的门控单元
Figure FDA0004081721910000012
来对原本编码器的输出隐藏层状态
Figure FDA0004081721910000013
进行信息选择,指定有效的信息范围,得到经过信息选择后的隐藏层变量
Figure FDA0004081721910000014
句子表征向量S是由编码器的前向传播的最后一个词的隐藏层状态和后向传播的第一个词的隐藏层状态拼接成一个固定长度的句子表征向量,这样拼接使得句子的关键信息压缩成一个固定的向量,S的表示如下:
Figure FDA0004081721910000015
其中,
Figure FDA0004081721910000016
为编码器的前向传播的最后一个词的隐藏层状态,
Figure FDA0004081721910000017
后向传播的第一个词的隐藏层状态;
所述步骤S2中,将编码阶段输出的隐藏层状态向量
Figure FDA0004081721910000018
和句子表征向量S作为选择阶段的输入,计算出门控单元向量
Figure FDA0004081721910000019
Figure FDA00040817219100000110
其中,
Figure FDA00040817219100000111
为i时刻的编码阶段输出的隐藏层状态向量,S为句子表征向量,
Figure FDA00040817219100000112
Figure FDA00040817219100000113
为可训练的权重矩阵,bs为偏置向量,sigmoid(·)是激活函数;
接下来,将编码阶段的输出
Figure FDA00040817219100000114
经过
Figure FDA00040817219100000115
进行关键信息选择,得到一个新的隐藏层状态:
Figure FDA00040817219100000116
其中,⊙为点积,
Figure FDA00040817219100000117
为i时刻的编码阶段输出的隐藏层状态向量,
Figure FDA00040817219100000118
为i时刻的门控单元向量;
S3:在解码阶段引入变分思想对变分潜在变量建模,并且对损失函数再平衡,提取摘要句子的全局潜在信息来生成摘要;
所述步骤S3中,与第一层不同的是,第二层隐藏层状态
Figure FDA0004081721910000021
是将前一个时刻解码器的输出yt-1、前一个时刻第二层隐藏层状态
Figure FDA0004081721910000022
和上下文语义向量Ct作为输入来计算:
Figure FDA0004081721910000023
其中,yt-1为前一个时刻解码器的输出,
Figure FDA0004081721910000024
为前一个时刻第二层隐藏层状态,Ct为上下文语义向量;
变分潜在变量建模实际是一个变分编码过程,利用t时刻之前解码器的输出y<t和潜在变量z<t得到一个后验分布
Figure FDA0004081721910000025
并假设这个分布为正态分布,用
Figure FDA0004081721910000026
来近似真实的后验分布pθ(zt|y<t,z<t),并从
Figure FDA0004081721910000027
采样出潜在变量zt,由于采样的过程不可导,采样的结果可导,为了保证模型训练,采用重构参数技巧获得新的潜在变量zt
Figure FDA0004081721910000028
其中,ε~N(0,I)为噪声变量,高斯参数μt和σt分别为变分均值和标准差;
所述步骤S3中,在生成摘要的过程中引入句子全局潜在信息,将潜在变量zt和第二层隐藏层状态
Figure FDA0004081721910000029
结合作为最终的解码器的隐藏层状态
Figure FDA00040817219100000210
Figure FDA00040817219100000211
其中,
Figure FDA00040817219100000212
Figure FDA00040817219100000213
为可训练的权重矩阵,
Figure FDA00040817219100000214
为偏置向量,tanh(·)为激活函数;
将最终解码器的隐藏层状态
Figure FDA00040817219100000215
经过线性变换后输入至so层获得目标词汇yt的概率分布,计算方式如下:
Figure FDA00040817219100000218
其中,
Figure FDA00040817219100000216
为可训练的权重矩阵,
Figure FDA00040817219100000217
为偏置向量;
通过最小化损失函数来训练模型和优化参数,损失函数由生成摘要目标词汇的负的对数似然和变分潜在变量建模时VAE的损失函数组成;生成摘要目标词汇的负的对数似然表示如下:
Figure FDA0004081721910000031
变分潜在变量建模时VAE的损失函数由KL散度和重构误差两部分组成:
Figure FDA0004081721910000032
由于VAE网络在训练时,轻视了重构误差的严重性,两个损失处于不平衡状态,这样会导致严重的KL散度项消失问题,使得VAE网络退化,因此对VAE损失函数进行再平衡,在KL散度项之前加一个超参数系数β来修复这种不平衡:
Figure FDA0004081721910000033
其中,0≤β<1,最终的损失函数为:
loss=lossword+lossVAE′
2.根据权利要求1所述的基于关键信息选择和变分潜在变量建模的文本摘要生成法,其特征在于,所述步骤S1的具体过程是:
将输入的源文本X={x1,x2,…,xt}首先映射成随机初始化的词向量,其中t为输入文本的长度,按顺序输入Bi-GRU经过的编码,Bi-GRU包括了前向传播和反向传播:
Figure FDA0004081721910000034
Figure FDA0004081721910000035
其中,
Figure FDA0004081721910000036
为前向方向输出的隐藏层状态,
Figure FDA0004081721910000037
为后向方向输出的隐藏层状态;
将每个时刻的两个方向的输出连接得到编码器每个时刻的隐藏层状态:
Figure FDA0004081721910000038
3.根据权利要求2所述的基于关键信息选择和变分潜在变量建模的文本摘要生成法,其特征在于,所述步骤S2中,
Figure FDA0004081721910000039
的取值范围介于0和1之间;如果取值接近0,选择门将过滤掉对应隐层状态上的大部分信息;如果取值接近1,选择门将保留大部分信息,以达到对核心的关键信息的选择和无效信息的过滤。
4.根据权利要求3所述的基于关键信息选择和变分潜在变量建模的文本摘要生成法,其特征在于,所述步骤S3中,在解码阶段引入变分思想对变分潜在变量建模,并且对损失函数再平衡,提取摘要句子的全局潜在信息来生成摘要;解码器采用两层Bi-GRU,第一层隐藏层状态
Figure FDA00040817219100000310
计算方式如下:
Figure FDA0004081721910000041
其中,yt-1为前一个时刻解码器的输出,
Figure FDA0004081721910000042
为前一个时刻第一层隐藏层状态;
通过注意力机制获取上下文语义向量Ct,利用当前时刻的第一层隐藏层状态状态
Figure FDA0004081721910000043
与选择阶段得到的隐藏层状态
Figure FDA0004081721910000044
进行匹配,计算获取各个结点隐藏层状态的注意力权重,将获得的注意力权重经过归一化,并进行加权求和得到当前时刻上下文语义向量Ct,注意力机制的计算方式如下:
Figure FDA0004081721910000045
Figure FDA0004081721910000046
Figure FDA0004081721910000047
其中,
Figure FDA0004081721910000048
Figure FDA0004081721910000049
为权重矩阵,ba为偏置。
CN202010312799.3A 2020-04-20 2020-04-20 基于关键信息选择和变分潜在变量建模的文本摘要生成法 Active CN111708877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312799.3A CN111708877B (zh) 2020-04-20 2020-04-20 基于关键信息选择和变分潜在变量建模的文本摘要生成法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312799.3A CN111708877B (zh) 2020-04-20 2020-04-20 基于关键信息选择和变分潜在变量建模的文本摘要生成法

Publications (2)

Publication Number Publication Date
CN111708877A CN111708877A (zh) 2020-09-25
CN111708877B true CN111708877B (zh) 2023-05-09

Family

ID=72536249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312799.3A Active CN111708877B (zh) 2020-04-20 2020-04-20 基于关键信息选择和变分潜在变量建模的文本摘要生成法

Country Status (1)

Country Link
CN (1) CN111708877B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232489A (zh) * 2020-10-26 2021-01-15 南京明德产业互联网研究院有限公司 一种门控循环网络的方法和装置及链路预测的方法和装置
CN112800196B (zh) * 2021-01-18 2024-03-01 南京明略科技有限公司 一种基于孪生网络的faq问答库匹配方法与系统
CN114627196B (zh) * 2022-01-06 2024-07-02 福州大学 基于变分自动编码器的潜变量空间解耦方法
CN114757452B (zh) * 2022-06-14 2022-09-09 湖南工商大学 基于文本挖掘的生产安全事故隐患预警方法及系统
CN118277797B (zh) * 2024-06-04 2024-08-23 中国人民解放军海军航空大学 一种贝叶斯变分自编码器模型及其建立方法、应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110134782A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110134782A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统

Also Published As

Publication number Publication date
CN111708877A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111708877B (zh) 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN106126507B (zh) 一种基于字符编码的深度神经翻译方法及系统
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110738062A (zh) 一种gru神经网络蒙汉机器翻译方法
Jin et al. Relation extraction exploiting full dependency forests
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN116738994A (zh) 基于上下文增强的提示微调的关系抽取方法
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN111309896B (zh) 基于二级注意力的深度学习文本摘要生成方法
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和系统
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
CN111428518B (zh) 一种低频词翻译方法及装置
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN110825869A (zh) 一种基于复制机制的变分生成解码器的文本摘要生成方法
CN109918484B (zh) 对话生成方法和装置
CN109325110B (zh) 印尼语文档摘要生成方法、装置、存储介质及终端设备
CN116805150A (zh) 一种语义相似的短文本聚类方法、系统和计算机设备
CN116432637A (zh) 一种基于强化学习的多粒度抽取-生成混合式文摘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant