CN110032638B - 一种基于编码器-解码器的生成式摘要提取方法 - Google Patents

一种基于编码器-解码器的生成式摘要提取方法 Download PDF

Info

Publication number
CN110032638B
CN110032638B CN201910315538.4A CN201910315538A CN110032638B CN 110032638 B CN110032638 B CN 110032638B CN 201910315538 A CN201910315538 A CN 201910315538A CN 110032638 B CN110032638 B CN 110032638B
Authority
CN
China
Prior art keywords
output
decoder
layer
time
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910315538.4A
Other languages
English (en)
Other versions
CN110032638A (zh
Inventor
李媛
黄晓
陈翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910315538.4A priority Critical patent/CN110032638B/zh
Publication of CN110032638A publication Critical patent/CN110032638A/zh
Application granted granted Critical
Publication of CN110032638B publication Critical patent/CN110032638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于编码器‑解码器的生成式摘要提取方法,该方法基于含有注意力机制的编码器‑解码器框架,引入了变分自编码网络和复制的思想。方法的编码器部分与常规编码器相同,所用基本单元为GRU,解码器部分共有三层,第一层和第二层是GRU解码层,用于确定性部分的输出,第三层是变分自编码层,用于潜在结构变量部分的输出,而注意力机制将会被引入到第二层GRU中。在网络的输出部分,将复制部分和生成部分的隐藏层状态合为一体后映射为网络的输出。同时,在变分自编码层中增加了历史依赖项,使之能够适应时序网络。该方法充分利用了编码器隐藏层状态的信息,提高了输出准确率,具有更好的性能。

Description

一种基于编码器-解码器的生成式摘要提取方法
技术领域
本发明涉及摘要提取技术领域,具体涉及一种基于编码器-解码器的生成式摘要提取方法。
背景技术
如今,网络上到处都充斥着不同种类的信息,如何从海量信息中提取出最关键最有效的信息成为非常重要的研究方向。文本摘要提取能够从单篇或多篇文档中自动生成关键摘要,帮助人们快速获取需要的信息。目前,摘要提取技术已经应用在文本相关的各个领域,主要是为了处理信息过载问题。例如,摘要提取技术可以自动提炼新闻标题,帮助人们在最短的时间内了解最有价值的新闻内容。
目前主流的文本摘要提取算法大致可以分为两种类型:抽取式摘要和生成式摘要。抽取式摘要思路比较简单,即根据一定的算法,从原文本中找到与原文本中心思想最一致的一个或几个句子组成摘要。抽取式摘要方法提取出的摘要质量以及流畅度都差强人意,但技术相对比较成熟,且算法简单,成本较低,因此仍具有巨大的研究价值。生成式摘要较为复杂,即计算机根据算法对原文本进行阅读和理解,并按照自己的方式生成流畅的摘要语句。相比于抽取式摘要,生成式摘要方法更接近人写摘要的过程。2014年,由谷歌公司的谷歌大脑团队提出的seq2seq模型,开启了自然语言处理领域中端到端网络的火热研究。
近年来,深度神经网络模型的出现极大地推动了机器学习的发展。深度学习方法可以从原始数据中自动抽取内在特征,避免了繁重的人工特征抽取过程,文本摘要提取也因为结合了深度神经网络模型而取得了更优的效果。其中,编码器-解码器框架频繁地应用于摘要提取、机器翻译、推荐系统等自然语言处理任务中。该框架可以有效处理序列转换问题,先将输入序列按照顺序进行输入编码,再根据编码向量按顺序解码出目标序列,解码过程中,还可以利用各种注意力机制,使得解码过程更优。
虽然现有很多模型中都引入了注意力机制,但都不是非常充分,如果能够在模型的解码部分更多地强调注意力机制的作用,同时又不舍弃模型本身的输出状态,而是将它们同时作为输出状态的一部分,将有可能获得更好的模型性能。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于编码器-解码器的生成式摘要提取方法,将变分自编码嵌入到解码器中,并引入了复制的思想,使得摘要提取能够充分考虑注意力机制的作用,从而获得更好的摘要提取性能。
本发明的目的可以通过采取如下技术方案达到:
一种基于编码器-解码器的生成式摘要提取方法,所述的生成式摘要提取方法包括以下步骤:
S1、对于给定的摘要数据集,首先进行预处理过程,经预处理后得到短文本特征
Figure GDA0002832583110000021
和目标摘要特征Y=[y1,y2,...,yT],然后将短文本特征X输入到由编码器和解码器组成的网络中进行训练,所述的编码器用于对输入短文本特征X进行编码形成编码向量,所述的解码器用于对编码向量进行解码输出目标摘要;
S2、将短文本特征X按时序输入到编码器中,所述的编码器由单层双向GRU网络构成,每个时刻的单层双向GRU网络的输入对应短文本特征X中的一个向量,前向GRU的输入顺序为从前往后,即从x1
Figure GDA0002832583110000031
后向GRU的输入顺序为从后往前,即从
Figure GDA0002832583110000032
到x1,每个单层双向GRU网络在t时刻的输入包括该时刻的文本特征向量xt和上一时刻单层双向GRU网络输出的隐藏层状态ht-1,单层双向GRU网络表示为:
rt=σ(Wxrxt+Whrht-1+br) (1)
zt=σ(Wxzxt+Wgzht-1+bz) (2)
gt=tanh(Wxhxt+Whh(rt*ht-1)+bh) (3)
ht=zt*ht-1+(1-zt)*gt (4)
其中,xt为输入,ht-1为上一时刻的隐藏层状态,ht为t时刻输出的隐藏层状态,Wxr、Whr、Wxz、Whz、Wxh、Whh为权重矩阵,br、bz、bh为偏置,rt为重置门,zt为更新门,gt为需要更新的信息,*为点乘运算,σ(·)为Sigmoid激活函数,tanh(·)为Tanh激活函数;
将短文本特征X通过编码器输出t时刻的前向隐藏层状态
Figure GDA0002832583110000033
和后向隐藏层状态
Figure GDA0002832583110000034
拼接,得到t时刻最终的编码器隐藏层状态
Figure GDA0002832583110000035
将所有时刻的
Figure GDA0002832583110000036
求平均,得到用于解码的编码向量
Figure GDA0002832583110000037
表示为:
Figure GDA0002832583110000038
其中,Te为输入序列长度;
S3、对编码向量
Figure GDA0002832583110000039
进行解码,通过解码器第一层单向GRU网络进行解码,t时刻解码器第一层单向GRU网络的输入包括上一时刻本层单向GRU网络输出的隐藏层状态
Figure GDA00028325831100000310
和上一时刻的解码器输出yt-1,其中,单向GRU网络隐藏层状态的初始值为步骤S2中的编码向量
Figure GDA00028325831100000311
本层t时刻的输出为隐藏层状态
Figure GDA0002832583110000041
本层单向GRU网络在t时刻的解码结果表示为:
Figure GDA0002832583110000042
其中,GRU1(·)表示第一层解码器基本单元为GRU网络,yt-1为上一时刻的解码输出,
Figure GDA0002832583110000043
为第一层解码器单向GRU网络上一时刻输出的隐藏层状态,初始状态为编码向量
Figure GDA0002832583110000044
S4、根据编码器的输出隐藏层状态
Figure GDA0002832583110000045
和解码器第一层单向GRU网络的输出隐藏层状态
Figure GDA0002832583110000046
计算输出注意力向量ct,表示为:
Figure GDA0002832583110000047
Figure GDA0002832583110000048
Figure GDA0002832583110000049
其中,
Figure GDA00028325831100000410
为编码器在j时刻的隐藏层状态,
Figure GDA00028325831100000411
为解码器第一层单向GRU网络在i时刻的隐藏层状态,ai,j为编码器的隐藏层状态
Figure GDA00028325831100000412
对解码器第一层单向GRU网络的隐藏层状态
Figure GDA00028325831100000413
的权重,
Figure GDA00028325831100000414
为权重矩阵,ba为偏置,v为线性转换向量,Te为输入序列长度,tanh(·)为Tanh激活函数,ct为注意力向量,ei,j为中间计算变量;
S5、通过解码器第二层单向GRU网络进行解码,t时刻第二层单向GRU网络的输入包括上一时刻本层GRU输出的隐藏层状态
Figure GDA00028325831100000415
上一时刻的解码器输出yt-1以及注意力向量ct,GRU隐藏层状态的初始值为编码向量
Figure GDA00028325831100000416
本层t时刻的输出为隐藏层状态
Figure GDA00028325831100000417
本层单向GRU网络在t时刻的解码结果表示为:
Figure GDA00028325831100000418
其中,GRU2(·)表示第二层解码器基本单元为GRU网络,yt-1为上一时刻的解码输出,
Figure GDA0002832583110000051
为解码器第二层单向GRU网络上一时刻输出的隐藏层状态,初始状态为编码向量
Figure GDA0002832583110000052
ct为注意力向量;
S6、通过解码器第三层进行变分自编码过程,其中,第三层是单向变分自编码网络,t时刻的变分自编码网络输入包括解码器第一层单向GRU网络上一时刻输出的隐藏层状态
Figure GDA0002832583110000053
本层上一时刻输出的潜在结构信息zt-1以及上一时刻的解码器输出yt-1,上述输入先通过神经网络得到均值μt和标准差σt,再通过一个高斯分布的辅助噪声变量ε~N(0,I)作用输出潜在结构信息zt,第三层变分自编码在t时刻的解码结果表示为:
Figure GDA0002832583110000054
Figure GDA0002832583110000055
Figure GDA0002832583110000056
zt=μtt*ε (14)
其中,
Figure GDA0002832583110000057
为权重矩阵,
Figure GDA0002832583110000058
为偏置,yt-1为上一时刻的解码输出,zt-1为变分自编码层上一时刻输出的潜在结构信息,
Figure GDA0002832583110000059
为解码器第一层单向GRU网络上一时刻输出的隐藏层状态,μt和σt为变分自编码层通过神经网络生成的均值和标准差,σ(·)为Sigmoid激活函数;
S7、计算解码器的生成部分输出,t时刻的生成部分包括解码器第三层的变分自编码网络在t时刻输出的潜在结构信息zt和解码器第二层单向GRU网络在t时刻输出的隐藏层状态
Figure GDA00028325831100000510
t时刻的生成部分输出表示为:
Figure GDA00028325831100000511
其中,
Figure GDA00028325831100000512
为权重矩阵,
Figure GDA00028325831100000513
为偏置,tanh(·)为Tanh激活函数;
S8、接着计算概率开关pswitch,概率开关的输入包括t时刻得到的注意力向量ct和解码器第二层单向GRU网络在t时刻输出的隐藏层状态
Figure GDA0002832583110000061
t时刻的概率开关表示为:
Figure GDA0002832583110000062
其中,σ(·)为Sigmoid激活函数,
Figure GDA0002832583110000063
为权重矩阵,
Figure GDA0002832583110000064
为偏置;
S9、计算解码器的输出,将解码器的生成部分和复制部分用概率开关pswitch进行加权求和,得到解码器t时刻的输出隐藏层状态h,表示为:
Figure GDA0002832583110000065
其中,
Figure GDA0002832583110000066
为生成部分的隐藏层状态;
将解码器的输出隐藏层状态h映射为解码器的输出yt,解码器t时刻的输出为:
Figure GDA0002832583110000067
其中,
Figure GDA0002832583110000068
为权重矩阵,
Figure GDA0002832583110000069
为偏置,softmax(·)为归一化函数。
进一步地,所述的步骤S1中预处理的过程如下:
S11、将样本的短文本和目标摘要切分成单个的字;
S12、将短文本中的词去重后构建source字典,目标摘要中的词去重后构建target字典;
S13、将source字典和target字典中的词,生成固定维度的随机向量作为某个词的词向量;
S14、将每个短文本和目标摘要分别填充到对应的最大长度。
上述对短文本进行预处理是为了将短文本转变成计算机可以识别的向量,使其能够送入网络进行训练;对目标摘要进行预处理是为了能够将目标摘要转变成计算机可以识别的向量,使其能够与网络的解码输出一起计算出网络的优化目标,进而对网络进行训练。
进一步地,所述的网络的优化目标为:
Figure GDA0002832583110000071
其中,DKL[·]为KL散度,N为样本个数,T为输出序列长度,X为输入短文本序列,yt为t时刻的解码输出,y<t为t时刻之前的解码输出,zt为变分自编码网络在t时刻输出的潜在结构信息,z<t为变分自编码网络在t时刻之前输出的潜在结构信息,log[p(·)]为解码输出在t时刻的似然函数,
Figure GDA0002832583110000072
为变分自编码网络的编码器概率分布,pθ(·)为变分自编码网络的解码器概率分布。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明通过变分自编码网络,将生成式方法引入到本方法中,提高了输出目标摘要的准确率;
(2)本发明通过双层GRU解码器,使变分自编码网络的引入成为了可能,增强了本发明与其他网络结合的可能性;
(3)本发明通过在输出中引入复制的思想,将输出分为复制和生成两部分,增强了编码器对于解码过程的作用,使输出结果更加精确;
附图说明
图1是本发明中编码器-解码器的生成式摘要提取结构框图;
图2是变分自编码结构图;
图3是GRU基本结构图;
图4是LCSTS数据集各部分分布图;
图5是预处理过程图;
图6是分词结果示例图;
图7是source字典示例图;
图8是source字典词向量示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1,图2,图3,图4,图5,图6,图7以及图8所示,为了方便描述本实施例,本实施例仅以LCSTS数据集为例,说明本实施例。
本实施例公开了一种基于编码器-解码器的生成式摘要提取方法,包括以下步骤:
S1、对于给定的摘要数据集,首先进行预处理过程,经预处理后得到短文本特征
Figure GDA0002832583110000081
目标摘要特征Y=[y1,y2,...,yT],然后将预处理后的短文本特征X输入到网络中进行训练。网络主要包括编码器和解码器两部分,编码器用于对输入短文本进行编码形成编码向量,解码器用于对编码向量进行解码输出目标摘要;
S2、首先是编码过程。将短文本特征X按时序输入到编码器中,本方法的编码器由单层双向GRU网络构成,每个时刻的单层双向GRU网络的输入都对应短文本特征X中的一个向量。单层双向GRU网络中,前向GRU的输入顺序为从前往后,即从x1
Figure GDA0002832583110000082
后向GRU的输入顺序为从后往前,即从
Figure GDA0002832583110000083
到x1。每个GRU在t时刻的输入除了该时刻的文本特征向量xt,还有上一时刻GRU输出的隐藏层状态ht-1,GRU使用公式表示为:
rt=σ(Wxrxt+Whrht-1+br) (1)
zt=σ(Wxzxt+Whzht-1+bz) (2)
gt=tanh(Wxhxt+Whh(rt*ht-1)+bh) (3)
ht=zt*ht-1+(1-zt)*gt (4)
其中,xt为输入,ht-1为上一时刻的隐藏层状态,Wxr、Whr、Wxz、Whz、Wxh、Whh为权重矩阵,br、bz、bh为偏置,rt为重置门,zt为更新门,*为点乘运算,σ(·)为Sigmoid激活函数,tanh(·)为Tanh激活函数。
短文本特征X通过编码器输出t时刻的前向隐藏层状态
Figure GDA0002832583110000091
和后向隐藏层状态
Figure GDA0002832583110000092
再将
Figure GDA0002832583110000093
Figure GDA0002832583110000094
拼接起来,可以得到t时刻最终的编码器隐藏层状态
Figure GDA0002832583110000095
将所有时刻的
Figure GDA0002832583110000096
求平均,便可得到用于解码的编码向量
Figure GDA0002832583110000097
使用公式表示为:
Figure GDA0002832583110000098
其中,Te为输入序列长度;
S3、编码完成后,接着是解码,首先进行解码器第一层单向GRU网络的解码过程。解码器第一层是单向GRU网络,t时刻的单向GRU网络输入包含两部分,即上一时刻本层单向GRU网络输出的隐藏层状态
Figure GDA0002832583110000099
和上一时刻的解码器输出yt-1,单向GRU网络隐藏层状态的初始值为步骤S2中的编码向量
Figure GDA00028325831100000910
本层t时刻的输出为隐藏层状态
Figure GDA00028325831100000911
本层单向GRU网络在t时刻的解码结果使用公式表示为:
Figure GDA00028325831100000912
其中,GRU1(·)表示解码器第一层基本单元为单向GRU网络,yt-1为上一时刻的解码输出,
Figure GDA00028325831100000913
为解码器第一层单向GRU网络上一时刻输出的隐藏层状态,初始状态为
Figure GDA0002832583110000101
S4、接着根据编码器的输出隐藏层状态和解码器第一层单向GRU网络的输出隐藏层状态计算注意力机制。即用给定步骤S2中输出的编码器隐藏层状态
Figure GDA0002832583110000102
与步骤S3中解码器第一层单向GRU网络输出的隐藏层状态
Figure GDA0002832583110000103
一起计算输出注意力向量ct,使用公式表示为:
Figure GDA0002832583110000104
Figure GDA0002832583110000105
Figure GDA0002832583110000106
其中,
Figure GDA0002832583110000107
为编码器在j时刻的隐藏层状态,
Figure GDA0002832583110000108
为解码器第一层单向GRU网络在i时刻的隐藏层状态,ai,j为编码器的隐藏层状态
Figure GDA0002832583110000109
对解码器第一层单向GRU网络的隐藏层状态
Figure GDA00028325831100001010
的权重,
Figure GDA00028325831100001011
为权重矩阵,ba为偏置,v为线性转换向量,Te为输入序列长度,tanh(·)为Tanh激活函数,ct为注意力向量;
S5、接着要进行解码器第二层单向GRU网络的解码过程。解码器第二层也是单向GRU网络,t时刻的GRU输入包含三部分,即上一时刻本层单向GRU网络输出的隐藏层状态
Figure GDA00028325831100001012
上一时刻的解码器输出yt-1以及步骤S4中的注意力向量ct,单向GRU网络隐藏层状态的初始值为步骤S2中的编码向量
Figure GDA00028325831100001013
本层t时刻的输出为隐藏层状态
Figure GDA00028325831100001014
本层单向GRU网络在t时刻的解码结果使用公式表示为:
Figure GDA00028325831100001015
其中,GRU2(·)表示第二层解码器基本单元为单向GRU网络,yt-1为上一时刻的解码输出,
Figure GDA00028325831100001016
为解码器第二层单向GRU网络上一时刻输出的隐藏层状态,初始状态为
Figure GDA0002832583110000111
ct为注意力机制的输出。
S6、接着要进行解码器第三层的变分自编码过程。本层是单向变分自编码网络,t时刻的变分自编码网络输入包括三部分,即步骤S3中解码器第一层GRU上一时刻输出的隐藏层状态
Figure GDA0002832583110000112
本层上一时刻输出的潜在结构信息zt-1以及上一时刻的解码器输出yt-1。这些输入先通过神经网络得到均值μt和标准差σt,再通过一个高斯分布的辅助噪声变量ε~N(0,I)作用输出潜在结构信息zt。本层变分自编码在t时刻的解码结果使用公式表示为:
Figure GDA0002832583110000113
Figure GDA0002832583110000114
Figure GDA0002832583110000115
zt=μtt*ε (14)
其中,
Figure GDA0002832583110000116
为权重矩阵,
Figure GDA0002832583110000117
为偏置,yt-1为上一时刻的解码输出,zt-1为变分自编码层上一时刻输出的潜在变量信息,
Figure GDA0002832583110000118
为解码器第一层单向GRU网络上一时刻输出的隐藏层状态,μt和σt为变分自编码层通过神经网络生成的均值和标准差,σ(·)为Sigmoid激活函数;
S7、接着要计算解码器的生成部分输出。t时刻的生成部分由两部分状态组成,即步骤S6中解码器第三层的变分自编码网络在t时刻输出的潜在结构信息zt和步骤S5中解码器第二层单向GRU网络在t时刻输出的隐藏层状态
Figure GDA0002832583110000119
t时刻的生成部分使用公式表示为:
Figure GDA00028325831100001110
其中,
Figure GDA00028325831100001111
为权重矩阵,
Figure GDA00028325831100001112
为偏置,tanh(·)为Tanh激活函数。
S8、计算概率开关pswitch。t时刻解码器的输出包含生成部分和复制部分。生成部分为步骤S7中得到的
Figure GDA0002832583110000121
复制部分为步骤S4中得到的注意力向量ct。用一个概率开关pswitch对这两部分进行权衡,1-pswitch表示复制部分的所占比重,pswitch表示生成部分的所占比重。
概率开关pswitch的输入包括两部分,即步骤S4中t时刻得到的注意力向量ct和步骤S5中解码器第二层单向GRU网络在t时刻输出的隐藏层状态
Figure GDA0002832583110000122
t时刻的概率开关使用公式表示为:
Figure GDA0002832583110000123
其中,σ(·)为Sigmoid激活函数,
Figure GDA0002832583110000124
为权重矩阵,
Figure GDA0002832583110000125
为偏置;
S9、计算解码器的输出。将解码器的生成部分和复制部分用概率开关pswitch进行加权求和,得到解码器t时刻的输出隐藏层状态h,使用公式表示为:
Figure GDA0002832583110000126
其中,
Figure GDA0002832583110000127
为生成部分的隐藏层状态;
最终,将解码器的输出隐藏层状态h映射为解码器的输出yt,解码器t时刻的输出为:
Figure GDA0002832583110000128
其中,
Figure GDA0002832583110000129
为权重矩阵,
Figure GDA00028325831100001210
为偏置,softmax(·)为归一化函数;
S10、计算整个网络的优化目标。本方法的最终优化目标为:
Figure GDA00028325831100001211
其中,DKL[·]为KL散度,N为样本个数,T为输出序列长度。
其中,步骤S1中预处理实施的具体过程为:
S11、如图6所示,对LCSTS数据集进行分词,将文本和目标摘要变成单个的字体;
S12、如图7所示,将所有短文本中的词去重后构建source字典,所有目标摘要中的词去重后构建target字典;
S13、如图8所示,对source里的词,生成350维的随机向量作为某个词的词向量,词向量数据范围为-1到1,target字典进行同样操作;
S14、将短文本和目标摘要分别用“<PAD>”填充到对应的最大长度120和25,然后将其作为特征输入到本方法的模型中。
综上所述,该方法基于含有注意力机制的编码器-解码器框架,引入了变分自编码网络和复制的思想。方法的编码器部分与常规编码器相同,所用基本单元为GRU,解码器部分共有三层,第一层和第二层是GRU解码层,用于确定性部分的输出,第三层是变分自编码层,用于潜在结构变量部分的输出,而注意力机制将会被引入到第二层GRU中。在网络的输出部分,将复制部分和生成部分的隐藏层状态合为一体后映射为网络的输出。同时,在变分自编码层中增加了历史依赖项,使之能够适应时序网络。该方法充分利用了编码器隐藏层状态的信息,提高了输出准确率,具有更好的性能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于编码器-解码器的生成式摘要提取方法,其特征在于,所述的生成式摘要提取方法包括以下步骤:
S1、对于给定的摘要数据集,首先进行预处理过程,经预处理后得到短文本特征
Figure FDA0002832583100000011
和目标摘要特征Y=[y1,y2,...,yT],然后将短文本特征X输入到由编码器和解码器组成的网络中进行训练,所述的编码器用于对输入短文本特征X进行编码形成编码向量,所述的解码器用于对编码向量进行解码输出目标摘要;
S2、将短文本特征X按时序输入到编码器中,所述的编码器由单层双向GRU网络构成,每个时刻的单层双向GRU网络的输入对应短文本特征X中的一个向量,前向GRU的输入顺序为从前往后,即从x1
Figure FDA0002832583100000012
后向GRU的输入顺序为从后往前,即从
Figure FDA0002832583100000013
到x1,每个单层双向GRU网络在t时刻的输入包括该时刻的文本特征向量xt和上一时刻单层双向GRU网络输出的隐藏层状态ht-1,单层双向GRU网络表示为:
rt=σ(Wxrxt+Whrht-1+br) (1)
zt=σ(Wxzxt+Whzht-1+bz) (2)
gt=tanh(Wxhxt+Whh(rt*ht-1)+bh) (3)
ht=zt*ht-1+(1-zt)*gt (4)
其中,xt为输入,ht-1为上一时刻的隐藏层状态,ht为t时刻输出的隐藏层状态,Wxr、Whr、Wxz、Whz、Wxh、Whh为权重矩阵,br、bz、bh为偏置,rt为重置门,zt为更新门,gt为需要更新的信息,*为点乘运算,σ(·)为Sigmoid激活函数,tanh(·)为Tanh激活函数;
将短文本特征X通过编码器输出t时刻的前向隐藏层状态
Figure FDA0002832583100000021
和后向隐藏层状态
Figure FDA0002832583100000022
拼接,得到t时刻最终的编码器隐藏层状态
Figure FDA0002832583100000023
将所有时刻的
Figure FDA0002832583100000024
求平均,得到用于解码的编码向量
Figure FDA0002832583100000025
表示为:
Figure FDA0002832583100000026
其中,Te为输入序列长度;
S3、对编码向量
Figure FDA0002832583100000027
进行解码,通过解码器第一层单向GRU网络进行解码,t时刻解码器第一层单向GRU网络的输入包括上一时刻本层单向GRU网络输出的隐藏层状态
Figure FDA0002832583100000028
和上一时刻的解码器输出yt-1,其中,单向GRU网络隐藏层状态的初始值为步骤S2中的编码向量
Figure FDA0002832583100000029
本层t时刻的输出为隐藏层状态
Figure FDA00028325831000000210
本层单向GRU网络在t时刻的解码结果表示为:
Figure FDA00028325831000000211
其中,GRU1(·)表示第一层解码器基本单元为GRU网络,yt-1为上一时刻的解码输出,
Figure FDA00028325831000000212
为第一层解码器单向GRU网络上一时刻输出的隐藏层状态,初始状态为编码向量
Figure FDA00028325831000000213
S4、根据编码器的输出隐藏层状态
Figure FDA00028325831000000214
和解码器第一层单向GRU网络的输出隐藏层状态
Figure FDA00028325831000000215
计算输出注意力向量ct,表示为:
Figure FDA00028325831000000216
Figure FDA00028325831000000217
Figure FDA00028325831000000218
其中,
Figure FDA00028325831000000219
为编码器在j时刻的隐藏层状态,
Figure FDA00028325831000000220
为解码器第一层单向GRU网络在i时刻的隐藏层状态,ai,j为编码器的隐藏层状态
Figure FDA00028325831000000221
对解码器第一层单向GRU网络的隐藏层状态
Figure FDA0002832583100000031
的权重,
Figure FDA0002832583100000032
为权重矩阵,ba为偏置,v为线性转换向量,Te为输入序列长度,tanh(·)为Tanh激活函数,ct为注意力向量,ei,j为中间计算变量;
S5、通过解码器第二层单向GRU网络进行解码,t时刻第二层单向GRU网络的输入包括上一时刻本层GRU输出的隐藏层状态
Figure FDA0002832583100000033
上一时刻的解码器输出yt-1以及注意力向量ct,GRU隐藏层状态的初始值为编码向量
Figure FDA0002832583100000034
本层t时刻的输出为隐藏层状态
Figure FDA0002832583100000035
本层单向GRU网络在t时刻的解码结果表示为:
Figure FDA0002832583100000036
其中,GRU2(·)表示第二层解码器基本单元为GRU网络,yt-1为上一时刻的解码输出,
Figure FDA0002832583100000037
为解码器第二层单向GRU网络上一时刻输出的隐藏层状态,初始状态为编码向量
Figure FDA0002832583100000038
ct为注意力向量;
S6、通过解码器第三层进行变分自编码过程,其中,第三层是单向变分自编码网络,t时刻的变分自编码网络输入包括解码器第一层单向GRU网络上一时刻输出的隐藏层状态
Figure FDA0002832583100000039
本层上一时刻输出的潜在结构信息zt-1以及上一时刻的解码器输出yt-1,上述输入先通过神经网络得到均值μt和标准差σt,再通过一个高斯分布的辅助噪声变量ε~N(0,I)作用输出潜在结构信息zt,第三层变分自编码在t时刻的解码结果表示为:
Figure FDA00028325831000000310
Figure FDA00028325831000000311
Figure FDA00028325831000000312
zt=μtt*ε (14)
其中,
Figure FDA00028325831000000313
为权重矩阵,
Figure FDA00028325831000000314
为偏置,yt-1为上一时刻的解码输出,zt-1为变分自编码层上一时刻输出的潜在结构信息,
Figure FDA0002832583100000041
为解码器第一层单向GRU网络上一时刻输出的隐藏层状态,μt和σt为变分自编码层通过神经网络生成的均值和标准差,σ(·)为Sigmoid激活函数;
S7、计算解码器的生成部分输出,t时刻的生成部分包括解码器第三层的变分自编码网络在t时刻输出的潜在结构信息zt和解码器第二层单向GRU网络在t时刻输出的隐藏层状态
Figure FDA0002832583100000042
t时刻的生成部分输出表示为:
Figure FDA0002832583100000043
其中,
Figure FDA0002832583100000044
为权重矩阵,
Figure FDA0002832583100000045
为偏置,tanh(·)为Tanh激活函数;
S8、接着计算概率开关pswitch,概率开关的输入包括t时刻得到的注意力向量ct和解码器第二层单向GRU网络在t时刻输出的隐藏层状态
Figure FDA0002832583100000046
t时刻的概率开关表示为:
Figure FDA0002832583100000047
其中,σ(·)为Sigmoid激活函数,
Figure FDA0002832583100000048
为权重矩阵,
Figure FDA0002832583100000049
为偏置;
S9、计算解码器的输出,将解码器的生成部分和复制部分用概率开关pswitch进行加权求和,得到解码器t时刻的输出隐藏层状态h,表示为:
Figure FDA00028325831000000410
其中,
Figure FDA00028325831000000411
为生成部分的隐藏层状态;
将解码器的输出隐藏层状态h映射为解码器的输出yt,解码器t时刻的输出为:
Figure FDA00028325831000000412
其中,
Figure FDA00028325831000000413
为权重矩阵,
Figure FDA00028325831000000414
为偏置,softmax(·)为归一化函数。
2.根据权利要求1所述的一种基于编码器-解码器的生成式摘要提取方法,其特征在于,所述的步骤S1中预处理的过程如下:
S11、将样本的短文本和目标摘要切分成单个的字;
S12、将短文本中的词去重后构建source字典,目标摘要中的词去重后构建target字典;
S13、将source字典和target字典中的词,生成固定维度的随机向量作为某个词的词向量;
S14、将每个短文本和目标摘要分别填充到对应的最大长度。
3.根据权利要求1所述的一种基于编码器-解码器的生成式摘要提取方法,其特征在于,所述的单层双向GRU网络的优化目标为:
Figure FDA0002832583100000051
其中,DKL[·]为KL散度,N为样本个数,T为输出序列长度,X为输入短文本序列,yt为t时刻的解码输出,y<t为t时刻之前的解码输出,zt为变分自编码网络在t时刻输出的潜在结构信息,z<t为变分自编码网络在t时刻之前输出的潜在结构信息,log[p(·)]为解码输出在t时刻的似然函数,
Figure FDA0002832583100000052
为变分自编码网络的编码器概率分布,pθ(·)为变分自编码网络的解码器概率分布。
CN201910315538.4A 2019-04-19 2019-04-19 一种基于编码器-解码器的生成式摘要提取方法 Active CN110032638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910315538.4A CN110032638B (zh) 2019-04-19 2019-04-19 一种基于编码器-解码器的生成式摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910315538.4A CN110032638B (zh) 2019-04-19 2019-04-19 一种基于编码器-解码器的生成式摘要提取方法

Publications (2)

Publication Number Publication Date
CN110032638A CN110032638A (zh) 2019-07-19
CN110032638B true CN110032638B (zh) 2021-04-13

Family

ID=67239093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910315538.4A Active CN110032638B (zh) 2019-04-19 2019-04-19 一种基于编码器-解码器的生成式摘要提取方法

Country Status (1)

Country Link
CN (1) CN110032638B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472238B (zh) * 2019-07-25 2022-11-18 昆明理工大学 基于层级交互注意力的文本摘要方法
CN111639152B (zh) * 2019-08-29 2021-04-13 上海卓繁信息技术股份有限公司 意图识别方法
CN110825869A (zh) * 2019-09-16 2020-02-21 中山大学 一种基于复制机制的变分生成解码器的文本摘要生成方法
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN112468888B (zh) * 2020-11-26 2023-04-07 广东工业大学 基于gru网络的视频摘要生成方法与系统
CN113987129A (zh) * 2021-11-08 2022-01-28 重庆邮电大学 基于变分自动编码器的数字媒体保护文本隐写方法
CN117520535A (zh) * 2024-01-08 2024-02-06 中国传媒大学 生成文本摘要的方法、系统及设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6318211B2 (ja) * 2016-10-03 2018-04-25 株式会社Preferred Networks データ圧縮装置、データ再現装置、データ圧縮方法、データ再現方法及びデータ転送方法
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6318211B2 (ja) * 2016-10-03 2018-04-25 株式会社Preferred Networks データ圧縮装置、データ再現装置、データ圧縮方法、データ再現方法及びデータ転送方法
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法

Also Published As

Publication number Publication date
CN110032638A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110032638B (zh) 一种基于编码器-解码器的生成式摘要提取方法
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
US11397892B2 (en) Method of and system for training machine learning algorithm to generate text summary
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN111444730A (zh) 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
Mathur et al. A scaled‐down neural conversational model for chatbots
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114943921A (zh) 一种融合多粒度视频语义信息的视频文本描述方法
Li et al. HG-news: news headline generation based on a generative pre-training model
CN116402064B (zh) 一种评论生成方法、系统、存储介质及电子设备
CN109117471A (zh) 一种词语相关度的计算方法及终端
CN115129826B (zh) 电力领域模型预训练方法、精调方法、装置及设备
CN116821326A (zh) 基于自注意力和相对位置编码的文本摘要生成方法及装置
CN114519353B (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
CN116432637A (zh) 一种基于强化学习的多粒度抽取-生成混合式文摘方法
CN114580376A (zh) 基于成分句法分析的中文摘要生成方法
Oshri et al. There and back again: Autoencoders for textual reconstruction
CN113449517A (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
Zhang et al. A rapid combined model for automatic generating web UI codes
CN112464673A (zh) 融合义原信息的语言含义理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant