CN110348016A - 基于句子关联注意力机制的文本摘要生成方法 - Google Patents

基于句子关联注意力机制的文本摘要生成方法 Download PDF

Info

Publication number
CN110348016A
CN110348016A CN201910635509.6A CN201910635509A CN110348016A CN 110348016 A CN110348016 A CN 110348016A CN 201910635509 A CN201910635509 A CN 201910635509A CN 110348016 A CN110348016 A CN 110348016A
Authority
CN
China
Prior art keywords
sentence
vector
document
hidden layer
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910635509.6A
Other languages
English (en)
Other versions
CN110348016B (zh
Inventor
郭军军
赵瑶
余正涛
黄于欣
吴瑾娟
朱恩昌
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910635509.6A priority Critical patent/CN110348016B/zh
Publication of CN110348016A publication Critical patent/CN110348016A/zh
Application granted granted Critical
Publication of CN110348016B publication Critical patent/CN110348016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及基于句子关联注意力机制的文本摘要生成方法,属于自然语言处理技术领域。本发明首先使用分层的双向长短期记忆Bi‑LSTM网络对文档进行编码,获取句子语义向量,然后借助门控网络分析句子间的关联关系,实现句子级别的重要性及冗余性评估,最后提出基于句子关联性注意力机制的解码算法生成摘要;本发明提出在构建神经网络摘要生成框架时,融入句子关联性分析,提升模型对原文中句子重要性及冗余性的评估能力。本发明有效提升了生成式摘要的性能,在当前ROUGH评价指标上取得了较好的效果。

Description

基于句子关联注意力机制的文本摘要生成方法
技术领域
本发明涉及基于句子关联注意力机制的文本摘要生成方法,属于自然语言处理技术领域。
背景技术
文本摘要是对文本内容的简要描述,即用一段精炼的文字对文章的内容进行概括,表达原文中最重要的信息。用户通过摘要就可以了解原文主旨,能够解决信息过载、分析困难等问题。目前在文本摘要方面的研究工作可分为两类,分别是抽取式和生成式。抽取式摘要通常依据一定的规则对原文本中句子重要程度进行分值估算,选择得分高且语义上不重复的句子形成摘要,而生成式则是以理解文本语义为前提再行总结,更接近于摘要的本质。但抽取式摘要需要面对更高的信息冗余以及句子间连贯性较差等问题,生成式摘要是一种类似于人工书写的方式对文本信息进行总结,它涉及多个子问题,如全文语义的理解,要点信息识别,同意转述和文本归纳整理等。早期的研究尝试将原文档转化为深层语义图,在图上进行转化分析生成摘要,但语义图的解析本身也是一项亟待解决的难题,在摘要应用中进展较慢。因此,本发明提出了一种新的在一定程度上模拟人工总结文档多项要点信息时需要关注原文不同句子的认知思想,提出基于句子关联性注意力机制的文本摘要生成方法。
发明内容
本发明提供了基于句子关联注意力机制的文本摘要生成方法,以用于解决现有的摘要生成方法需要面对更高的信息冗余以及句子间连贯性较差等问题,以及生成摘要进展慢的问题。
本发明的技术方案是:基于句子关联注意力机制的文本摘要生成方法,首先使用分层的双向长短期记忆(HBi-LSTM)网络对文档进行编码,分别获取词级、句子级向量表示,然后借助门控网络分析句子间的关联关系,对句子的重要性及冗余性等抽象特征进行明确地建模,最后依据句子的重要程度分配注意力权值解码生成摘要。
所述基于句子关联注意力机制的文本摘要生成方法的具体步骤如下:
Step1、借助互联网爬虫自动获取网上的新闻文本信息作为数据来源,关注新华网、国际在线中文版以及新浪微博等国内媒体,获取的数据包含新闻标题、正文详情、发布时间、媒体来源等信息;收集整理了22万余篇新闻文档作为实验数据,该组实验数据并以9:0.5:0.5的比例划分训练集、验证集、测试集。
Step2、对文档进行预处理,包括分词、去停用词、切分句子;具体的使用NLPIR工具对文档进行预处理;
Step3、使用分层的双向长短期记忆Bi-LSTM网络对文档进行编码,获取全文语义向量;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、选用Google提供的开源词向量工具word2vec,训练得到词向量。每个单词由一个字嵌入矩阵E映射得到分布表示,D表示由一系列句子组成的文档,且在每个文档结尾处以“endD”符号进行标记。同理,每个句子由一系列词组成其中Ns表示句子的长度,每个句子以“ends”标记结尾;
Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器;
(1)第一层是词级编码器,将输入的词向量转换成句子序列:
一级编码状态中,前向长短期记忆LSTM网络顺序读入句子中包含的每个词产生前向隐式状态序列其中表示第i个句子中第n个词,后向长短期记忆LSTM网络逆序读入句子中包含的每个词产生后向隐式状态序列前向和后向对应的隐层状态拼接构成每个句子的编码表示:
在词级别上设置第一层LSTM获取句子级别的向量表示:
hi,t=enc(ei,t,hi,t-1) (2)
其中ei,t表示在第i个句子中t位置处的单词嵌入式表示,hi,t表示隐层向量,词级编码器最后一个时间步的向量输出用于表示句子,定义为
(2)第二层是句子编码器,由句子序列的组合推导出文档的语义向量表示,这种词-句子-文档层次化的编码方式较好地保存了句子的结构信息:
二级编码状态中,同样使用采用双向长短期记忆Bi-LSTM网络获取全文语义信息,前向LSTM顺序读入文档中每个句子产生前向隐式状态序列后向长短期记忆LSTM网络逆序读入文档中每个句子产生后向隐式状态序列前向最后一个隐层状态和后向最后一个隐层状态拼接构成整篇文档的编码表示:
在句子级别上设置第二层LSTM获取文档级的向量表示:
ht=encsent(et,ht-1) (4)
最后一个时间步的向量表示用于表示整个文档:
eD=hendD (5)
编码器接收”ends”结束符,更新其隐层状态,获取全文语义向量,et表示单词的分布表示,ht-1表示隐层向量。
Step4、构建第一层门控网络,依据句子间的关联关系识别源文档中句子所占的权重;
本发明结合摘要与源文档间的关系特点,采用门控网络将句子关联性分析融入神经网络识别句子的重要性及冗余性总体架构如图2所示。
由于不同的句子对于摘要的贡献度是不同的,因此本发明借助门控网络将句子的重要性程度融入编码表示中,控制输入到输出端信息的流动,对于具有代表性的句子增强其在解码过程中注意力的分配,对于不足以反映原文主旨的句子减少其信息的传递。受抽取式摘要中为每个句子设置重要性分值的启发,本发明将摘要的生成过程定义为以抽取指导生成的软决策过程,在本阶段将构建第一层门控网络依据句子间的关联关系识别源文档中句子的重要程度。
作为本发明的优选方案,所述Step4中:
构建的第一层门控网络,是由文档中每个句子的隐层编码向量hi和文档的向量表示d共同组建,通过构建句子与全文语义之间的关联关系识别文档中的句子的权重,门控网络的构建将促使隐层编码向量hi包含的信息更好的传递至全文语义向量中,参与摘要的生成,第一层门控网络公式如下所示:
G1=σ(W1hi+U1d+b1) (6)
hiG1=G1⊙hi (7)
其中,G1是门控向量,W1和U1是权重向量,b1是偏移向量,σ代表sigmoid激活函数,操作符⊙表示按元素相乘,表示文档的语义向量由句子级编码的前向和后向对应的隐层状态拼接而成,hiG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态;在这个阶段,句子在文档中所占的权重将通过门控网络融入其向量表示中,提升模型对于重要句的识别能力。
Step5、构建第二层门控网络,依据句子的关联性对句子进行冗余约束,过滤多次重复表达的信息;
摘要被视为文本优化压缩的过程,因此摘要系统需要考虑重要性和冗余性之间的权衡。在本发明撰写过程中,重要信息通常会被多次重复强调,尽管这些具有代表性的句子都应当被认为是重要的,但是一个好的摘要中显然不应该包括包含对同一条信息的重复描述。因此在本阶段将依据句子的关联性对句子进行冗余约束,过滤多次重复表达的信息。
作为本发明的优选方案,所述Step5的具体步骤为:依据句子的关联性对句子进行冗余约束,第二层门控网络的输入是当前时刻的句子向量xi与前一时刻的隐层状态h(i-1)G1,得到新的编码表示hiG2,在训练过程中,通过调整第二层门控网络的σ函数动态地控制文档中冗余句子的筛选;由于门控采用了包含句子权重的编码向量作为输入的一部分,因此本阶段同时考虑句子的重要性,冗余性对摘要生成的影响,第二层门控网络的公式如下所示:
G2=σ(W2xi+U2h(i-1)G1+b2) (9)
hiG2=G2⊙hiG1 (10)
其中,G2是门控向量,W2和U2是权重向量,b2是偏移向量,σ是激活函数,分别表示词级编码中第i个句子的前向最后一个隐层状态和后向最后一个隐层状态,hiG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态,操作符⊙表示按元素相乘。
经过两层门控网络后,重要性及冗余性将作为约束条件融入文本编码阶段得到新的编码向量(h1G2,h2G2,…,hnG2),这组编码表示将用于产生上下文向量c。
Step6、基于句子关联性注意力机制的解码算法生成摘要。注意力机制模型计算不同解码状态下输入端句子向量对应的权值,在每个时刻,当前的输入和上一时刻的隐层状态被送到LSTM网络并输出新的权重,计算编码端向量加权和,并将其提供给LSTM第二层解码器;解码器依据动态的上下文向量更新隐层状态和预测输出。本发明的有益效果是:
1、本发明中分层的编码机制能有效捕获句子结构信息,产生信息量更为充足的全文语义向量,避免关键信息的丢失;
2、本发明中依据句子间的关联关系设置的多层门控网络对句子的重要性及冗余性进行了明确建模,通过重要信息的流动传递指导摘要生成;
3、本发明中基于注意力机制的解码算法可以共同考虑输入文档与输出摘要间的关联关系;
4、本发明中深度学中有监督的训练方式可能有助于获取文本摘要的高阶特征,这些特征可指导摘要生成中对原文中特定内容的选择;
5、本发明的注意力机制着重于分析文本中不同的描述内容的关联性,增强了模型对文档重要句子的识别能力以及冗余信息筛选的能力,实验结果表明句子关联分析与神经网络融合的方法取得了较好的效果。其发明主要在以下两点:其一是将分层的神经网络模型使用双向长短期记忆(Bi-LSTM)网络进行改进提升其对文档的建模能力,在词级和句子级上融合前向后向信息,从而增强模型对于句子结构的记忆能力;其二是使用门控网络分析句子间的关联关系,将句子的重要性及冗余性添加到编码信息中,产生融合了句子间关联程度的上下文向量用于解码阶段调节注意力权值的分配,更好地把握文本内容的整体含义。
附图说明
图1为本发明中的流程图;
图2为本发明的基于句子关联注意力机制的文本摘要生成模型示意图。
具体实施方式
实施例1:如图1-2所示,基于句子关联注意力机制的文本摘要生成方法,具体步骤如下:
Step1、收集整理了22万余篇新闻文档作为实验数据,该组实验数据分为三部分:训练集、验证集、测试集,其中训练数据集包含中文新闻语料20万余篇;验证集及测试数据各1万余篇,涉及近年来新闻事件。
Step2、在进行摘要任务之前,对文档进行预处理,包括切分、分词、去停用词等步骤。预处理参数设置如下:使用词向量(word2vec)预先训练的100维词向量作为嵌入初始化并允许在训练期间加以更新,编码器和解码器的隐藏状态维数固定为200。词表从训练集中以词频统计的方式收集,词表大小限制在40K,源端与目标端共享词表。对于低频词使用“UNK”标记。在训练阶段,批次大小设置为32,并使用Adam作为优化函数,学习率设置为0.001,采用梯度裁剪防止梯度爆炸,系数设置为5,采用L2正则化避免过拟合。测试阶段解码集束搜索大小设置为5。
Step3、使用分层的双向长短期记忆Bi-LSTM网络对文档进行编码,获取全文语义向量;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、选用Google提供的开源词向量工具word2vec,训练得到词向量;
Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器;
(1)第一层是词级编码器,将输入的词向量转换成句子序列:
一级编码状态中,前向长短期记忆LSTM网络顺序读入句子中包含的每个词产生前向隐式状态序列其中表示第i个句子中第n个词,后向长短期记忆LSTM网络逆序读入句子中包含的每个词产生后向隐式状态序列前向和后向对应的隐层状态拼接构成每个句子的编码表示:
在词级别上设置第一层LSTM获取句子级别的向量表示:
hi,t=enc(ei,t,hi,t-1) (2)
其中ei,t表示在第i个句子中t位置处的单词嵌入式表示,hi,t表示隐层向量,词级编码器最后一个时间步的向量输出用于表示句子,定义为
(2)第二层是句子编码器,由句子序列的组合推导出文档的语义向量表示,这种词-句子-文档层次化的编码方式较好地保存了句子的结构信息:
二级编码状态中,同样使用采用双向长短期记忆Bi-LSTM网络获取全文语义信息,前向LSTM顺序读入文档中每个句子产生前向隐式状态序列后向长短期记忆LSTM网络逆序读入文档中每个句子产生后向隐式状态序列前向最后一个隐层状态和后向最后一个隐层状态拼接构成整篇文档的编码表示:
在句子级别上设置第二层LSTM获取文档级的向量表示:
ht=encsent(et,ht-1) (4)
最后一个时间步的向量表示用于表示整个文档:
eD=hendD (5)
编码器接收”ends”结束符,更新其隐层状态,获取全文语义向量,et表示单词的分布表示,ht-1表示隐层向量。
Step4、构建第一层门控网络,依据句子间的关联关系识别源文档中句子所占的权重;
作为本发明的优选方案,所述Step4中:
构建的第一层门控网络,是由文档中每个句子的隐层编码向量hi和文档的向量表示d共同组建,通过构建句子与全文语义之间的关联关系识别文档中的句子的权重,门控网络的构建将促使隐层编码向量hi包含的信息更好的传递至全文语义向量中,参与摘要的生成,第一层门控网络公式如下所示:
G1=σ(W1hi+U1d+b1) (6)
hiG1=G1⊙hi (7)
其中,G1是门控向量,W1和U1是权重向量,b1是偏移向量,σ代表sigmoid激活函数,操作符⊙表示按元素相乘,表示文档的语义向量由句子级编码的前向和后向对应的隐层状态拼接而成,hiG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态;在这个阶段,句子在文档中所占的权重将通过门控网络融入其向量表示中,提升模型对于重要句的识别能力
Step5、构建第二层门控网络,依据句子的关联性对句子进行冗余约束,过滤多次重复表达的信息;
作为本发明的优选方案,所述Step5的具体步骤为:依据句子的关联性对句子进行冗余约束,第二层门控网络的输入是当前时刻的句子向量xi与前一时刻的隐层状态h(i-1)G1,得到新的编码表示hiG2,在训练过程中,通过调整第二层门控网络的σ函数动态地控制文档中冗余句子的筛选;由于门控采用了包含句子权重的编码向量作为输入的一部分,因此本阶段同时考虑句子的重要性,冗余性对摘要生成的影响,第二层门控网络的公式如下所示:
G2=σ(W2xi+U2h(i-1)G1+b2) (9)
hiG2=G2⊙hiG1 (10)
其中,G2是门控向量,W2和U2是权重向量,b2是偏移向量,σ是激活函数,分别表示词级编码中第i个句子的前向最后一个隐层状态和后向最后一个隐层状态,hiG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态,操作符⊙表示按元素相乘。
经过两层门控网络后,重要性及冗余性将作为约束条件融入文本编码阶段得到新的编码向量(h1G2,h2G2,…,hnG2),这组编码表示将用于产生上下文向量c。
Step6、基于句子关联性注意力机制的解码算法生成摘要。
作为本发明的优选方案,所述Step6的具体步骤为:解码器根据输入句子的编码向量生成新的句子{s'j},用于更新中间状态并预测序列中的下一个字符;本阶段依然使用基于长短期记忆LSTM网络的分层解码器框架来生成摘要,解码器decsent接收文档上下文向量表示,c作为初始状态h'0=c,第一层为句子级解码,按顺序预测第t个句子的向量表示:
ht'=decsent(et,h′t-1) (11)
其中h't-1是上一个时间步的隐层状态,在最后时间步获得的长短期记忆LSTM网络隐藏向量用于表示当前句子,传递给词解码器decword,词解码器按照了类似的方式预测每个词的嵌入式表示:
h'i,t=decword(ei,t,h′i,t-1) (12)
p(w|·)=softmax(ei,t,h′i,t-1) (13)
其中h′i,t-1是上一个时间步的隐层状态,将其当前时间步的词嵌入表示组合以用于下一个时间步预测,最后生成词汇表中的单词概率分布,ei,t表示在第i个句子中t位置处的单词嵌入式表示;由于涉及分层解码,解码器应当决定当下时刻的解码状态是否进行,因此将句子结束标记endS和文档结束标记endD添加到词汇表,预测到endD时解码终止。
序列到序列的框架在生成式文本摘要中的应用通常包含两个部分:输入文档编码和输出摘要解码,其核心问题在于输入输出之间如何建立对应关系。在原始解码器模型中,涉及阅读整个文档以理解其内容,然后将原始文档编码成一个固定的上下文向量c,这要求原始文本的语义信息能够充分地压缩至上下文向量中。通常引入注意机制以减轻记忆整个输入序列的负担,并且允许解码器在每个时间步关注于文档的特定区域。
每个时刻特征向量的线性组合权重由注意力机制预测并生成动态的上下文表示:
其中αi,j由解码端隐层状态h′j编码端隐层序列共同产生,计算公式如下:
ei,j=a(hi,h′j) (15)
其中,hi表示隐层向量,hj表示编码端隐层状态。
注意力机制计算不同解码状态下输入端句子向量对应的权值,在每个时刻,当前的输入和上一时刻的隐层状态被送到长短期记忆(LSTM)网络并输出新的权重,计算编码端向量加权和,并将其提供给长短期记忆(LSTM)网络第二层解码器。解码器依据动态的上下文向量更新隐层状态和预测输出。
本方法采用摘要任务中广泛使用的ROUGE分值作为评估指标,其工具包已被DUC和TAC等国际会议作为摘要体系的标准评价工具,用于预测生成文本和标准文本之间的接近程度。具体地说,摘要质量将依据模型预测生成的摘要与标准摘要的重叠单元进行量化计算,公式如下:
其中n代表n-gram的长度,Countmatch(n-gram)是模型生成摘要和人工书写的标准摘要中共同出现的n-gram的数量,公式旨在通过计算与参考摘要重叠的系统生成摘要中的n-gram的百分比来衡量系统生成摘要与参考摘要的匹配程度。本方法将采用ROUGH评价指标N元共现统计ROUGH-1,ROUGH-2以及句子中最长公共子序列共现统计ROUGH-L,前者预定义n-gram的长度,后者使用最长公共子序列直接进行匹配,因此它自动包括最长的顺序共现,从词共现的角度来说可反映句子包含的结构信息。
为了验证本方法的有效性,设置两组实验评估模型在数据集上的表现。如表1所示,HBi-LSTM为分层Bi-LSTM构建的摘要生成模型,本方法使用Bi-LSTM构建分层架构在参数设置上是有所不同;HBi-LSTM+Gate即本发明提出的模型,在分层Bi-LSTM的基础上添加了两层门控网络控制信息的流向。
表1是否添加门控网络对比实验
ROUGE-1 ROUGE-2 ROUGE-3
HBi-LSTM 0.2864 0.1372 0.1876
HBi-LSTM+Gate 0.3127 0.1424 0.2206
另外选取了两种基准模型和本发明提出的方案进行比较,如表2所示。LSA(LatentSemantic Analysis,潜在语义分析)使用潜在语义分析技术来识别语义上重要的句子,通过SVD(singular value decomposition,奇异值分解)从文档向量矩阵中导出潜在的语义结构,能够捕获术语之间的相互关系,以便它可以在语义上对术语和句子进行聚类。LexRank依赖于句子显着性的概念来识别文档中最重要的句子,是一种基于图的摘要模型,句子内相似性的连通矩阵被用作图形表示的邻接矩阵求解句子的显著性分值。
表2不同摘要生成方案对比实验结果
ROUGE-1 ROUGE-2 ROUGE-3
LSA 0.2183 0.0795 0.1476
LexRank 0.2701 0.1128 0.1749
HBi-LSTM+Gate 0.3127 0.1424 0.2206
为了验证句子关联性分析对摘要生成的影响,本方法设置两组实验评估不同模型在数据集上的表现。表1所示为基础的分层编码解码架构与添加门控网络后的实验结果。数据表明,本方法提出的构建门控网络识别句子重要性及冗余性能有效改善摘要生成性能,在ROUGE指标上有所提升,证实了基于句子关联性分析注意力机制应用于摘要生成任务的有效性。对于表1中不同方法的文本预处理及解码阶段参数设置是相同的,区别仅在于是否在编码阶段添加门控网络调整注意力权值分配。表2所示为本发明提出的模型与基准模型的对比试验,并实现Rouge-1,Rouge-2和Rouge-L分别为0.3127,0.1424和0.2206的最佳实验结果,以上数据实验结果显示句子关联性与神经网络结合的方法取得了很好地效果。在训练数据足够的前提下,该模型在文本生成领域具有较强的领域拓展性。但从更细致的角度划分,深度学习中人工设计的特征能有效提高了学习性能,这种现象在机器翻译任务中也较为常见,因此多特征融合的输入编码层和注意力机制可能对于提升模型的性能具有重要意义。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.基于句子关联注意力机制的文本摘要生成方法,其特征在于:具体步骤如下:
Step1、收集并处理新闻文本摘要数据作为训练语料、验证语料和测试语料;
Step2、对文档进行预处理,包括分词、去停用词、切分句子;
Step3、使用分层的双向长短期记忆Bi-LSTM网络对文档进行编码,获取全文语义向量;
Step4、构建第一层门控网络,依据句子间的关联关系识别源文档中句子所占的权重;
Step5、构建第二层门控网络,依据句子的关联性对句子进行冗余约束,过滤多次重复表达的信息;
Step6、基于句子关联性注意力机制的解码算法生成摘要。
2.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法,其特征在于:所述步骤Step1中,借助互联网爬虫自动获取网上的新闻文本信息作为数据来源,收集整理了22万余篇新闻文档作为实验数据,并以9:0.5:0.5的比例划分训练集、验证集、测试集。
3.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法,其特征在于:
所述步骤Step3的具体步骤为:
Step3.1、选用Google提供的开源词向量工具word2vec,训练得到词向量;
Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器;
(1)第一层是词级编码器,将输入的词向量转换成句子序列:
一级编码状态中,前向长短期记忆LSTM网络顺序读入句子中包含的每个词产生前向隐式状态序列其中表示第i个句子中第n个词,后向长短期记忆LSTM网络逆序读入句子中包含的每个词产生后向隐式状态序列前向和后向对应的隐层状态拼接构成每个句子的编码表示:
在词级别上设置第一层LSTM获取句子级别的向量表示:
hi,t=enc(ei,t,hi,t-1) (2)
其中ei,t表示在第i个句子中t位置处的单词嵌入式表示,hi,t表示隐层向量,词级编码器最后一个时间步的向量输出用于表示句子,定义为
(2)第二层是句子编码器,由句子序列的组合推导出文档的语义向量表示,这种词-句子-文档层次化的编码方式较好地保存了句子的结构信息:
二级编码状态中,同样使用采用双向长短期记忆Bi-LSTM网络获取全文语义信息,前向LSTM顺序读入文档中每个句子产生前向隐式状态序列后向长短期记忆LSTM网络逆序读入文档中每个句子产生后向隐式状态序列前向最后一个隐层状态和后向最后一个隐层状态拼接构成整篇文档的编码表示:
在句子级别上设置第二层LSTM获取文档级的向量表示:
ht=encsent(et,ht-1) (4)
最后一个时间步的向量表示用于表示整个文档:
eD=hendD (5)
编码器接收”ends”结束符,更新其隐层状态,获取全文语义向量,et表示单词的分布表示,ht-1表示隐层向量。
4.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法,其特征在于:所述Step4中:
构建的第一层门控网络,是由文档中每个句子的隐层编码向量hi和文档的向量表示d共同组建,通过构建句子与全文语义之间的关联关系识别文档中的句子的权重,门控网络的构建将促使隐层编码向量hi包含的信息更好的传递至全文语义向量中,参与摘要的生成,第一层门控网络公式如下所示:
G1=σ(W1hi+U1d+b1) (6)
hiG1=G1⊙hi (7)
其中,G1是门控向量,W1和U1是权重向量,b1是偏移向量,σ代表sigmoid激活函数,操作符⊙表示按元素相乘,表示文档的语义向量由句子级编码的前向和后向对应的隐层状态拼接而成,hiG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态;在这个阶段,句子在文档中所占的权重将通过门控网络融入其向量表示中,提升模型对于重要句的识别能力。
5.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法,其特征在于:所述Step5的具体步骤为:依据句子的关联性对句子进行冗余约束,第二层门控网络的输入是当前时刻的句子向量xi与前一时刻的隐层状态h(i-1)G1,得到新的编码表示hiG2,在训练过程中,通过调整第二层门控网络的σ函数动态地控制文档中冗余句子的筛选;由于门控采用了包含句子权重的编码向量作为输入的一部分,因此本阶段同时考虑句子的重要性,冗余性对摘要生成的影响,第二层门控网络的公式如下所示:
G2=σ(W2xi+U2h(i-1)G1+b2) (9)
hiG2=G2⊙hiG1 (10)
其中,G2是门控向量,W2和U2是权重向量,b2是偏移向量,σ是激活函数,分别表示词级编码中第i个句子的前向最后一个隐层状态和后向最后一个隐层状态,hiG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态,操作符⊙表示按元素相乘。
6.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法,其特征在于:所述Step6中:
注意力机制模型计算不同解码状态下输入端句子向量对应的权值,在每个时刻,当前的输入和上一时刻的隐层状态被送到LSTM网络并输出新的权重,计算编码端向量加权和,并将其提供给LSTM第二层解码器;解码器依据动态的上下文向量更新隐层状态和预测输出。
CN201910635509.6A 2019-07-15 2019-07-15 基于句子关联注意力机制的文本摘要生成方法 Active CN110348016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910635509.6A CN110348016B (zh) 2019-07-15 2019-07-15 基于句子关联注意力机制的文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910635509.6A CN110348016B (zh) 2019-07-15 2019-07-15 基于句子关联注意力机制的文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN110348016A true CN110348016A (zh) 2019-10-18
CN110348016B CN110348016B (zh) 2022-06-14

Family

ID=68176407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910635509.6A Active CN110348016B (zh) 2019-07-15 2019-07-15 基于句子关联注意力机制的文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN110348016B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008277A (zh) * 2019-10-30 2020-04-14 创意信息技术股份有限公司 一种自动文本摘要方法
CN111178053A (zh) * 2019-12-30 2020-05-19 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111191451A (zh) * 2019-12-30 2020-05-22 苏州思必驰信息科技有限公司 中文语句简化方法和装置
CN111291550A (zh) * 2020-01-17 2020-06-16 北方工业大学 一种中文实体提取方法及装置
CN111309871A (zh) * 2020-03-26 2020-06-19 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111506725A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 生成摘要的方法和装置
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112256876A (zh) * 2020-10-26 2021-01-22 南京工业大学 基于多记忆注意力网络的方面级情感分类模型
CN112364225A (zh) * 2020-09-30 2021-02-12 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN112464657A (zh) * 2020-12-07 2021-03-09 上海交通大学 混合式文本摘要生成方法、系统、终端及存储介质
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112598044A (zh) * 2020-12-17 2021-04-02 中山大学 一种基于多通道图卷积的文本分类方法
CN112732898A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 文献摘要生成方法、装置、计算机设备及存储介质
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112966073A (zh) * 2021-04-07 2021-06-15 华南理工大学 一种基于语义和浅层特征的短文本匹配方法
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113590828A (zh) * 2021-08-12 2021-11-02 杭州东方通信软件技术有限公司 一种通话关键信息的获取方法及装置
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及系统
CN113626584A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN113688606A (zh) * 2021-07-30 2021-11-23 达观数据(苏州)有限公司 一种自动化进行文档报告写作的方法
WO2022142121A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN114996442A (zh) * 2022-05-27 2022-09-02 北京中科智加科技有限公司 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN115774993A (zh) * 2022-12-29 2023-03-10 广东南方网络信息科技有限公司 一种基于句法分析的条件类错误识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
JP2018190188A (ja) * 2017-05-08 2018-11-29 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
CN109325109A (zh) * 2018-08-27 2019-02-12 中国人民解放军国防科技大学 基于注意力编码器的抽取式新闻摘要生成装置
CN109948162A (zh) * 2019-03-25 2019-06-28 北京理工大学 融合序列语法标注框架的生成式文本摘要方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
JP2018190188A (ja) * 2017-05-08 2018-11-29 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN109325109A (zh) * 2018-08-27 2019-02-12 中国人民解放军国防科技大学 基于注意力编码器的抽取式新闻摘要生成装置
CN109948162A (zh) * 2019-03-25 2019-06-28 北京理工大学 融合序列语法标注框架的生成式文本摘要方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HANGXIA ZHOU: "Short-Term Photovoltaic Power Forecasting", 《IEEE ACCESS》, vol. 7, 18 June 2019 (2019-06-18) *
WENYAN GUO: "Extracting Cross-organization Emergency Response", 《2018 IEEE INTERNATIONAL CONFERENCE OF SAFETY PRODUCE INFORMATIZATION (IICSPI)》, 15 April 2019 (2019-04-15) *
余正涛: "多特征融合的汉越双语新闻摘要方法", 《中文信息学报》, vol. 32, no. 12, 31 December 2018 (2018-12-31) *
刘峰: "基于Multi-head Attention 和Bi-LSTM 的", 《计算机系统应用》, vol. 6, no. 28, 15 June 2019 (2019-06-15) *
刘晓俊: "基于Bi-LSTM 和注意力机制的命名实体识别", 《洛阳理工学院学报( 自然科学版)》, vol. 29, no. 1, 31 March 2019 (2019-03-31) *
吴小华: "基于Self-Attention和Bi-LSTM的中文短文本情感分析", 《中文信息学报》, vol. 33, no. 6, 30 June 2019 (2019-06-30) *
李洋: "基于CNN 和BiLSTM 网络特征融合的文本情感分析", 《计算机应用》, vol. 38, no. 11, 10 November 2018 (2018-11-10) *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008277A (zh) * 2019-10-30 2020-04-14 创意信息技术股份有限公司 一种自动文本摘要方法
CN111191451B (zh) * 2019-12-30 2024-02-02 思必驰科技股份有限公司 中文语句简化方法和装置
CN111178053A (zh) * 2019-12-30 2020-05-19 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111191451A (zh) * 2019-12-30 2020-05-22 苏州思必驰信息科技有限公司 中文语句简化方法和装置
CN111291550A (zh) * 2020-01-17 2020-06-16 北方工业大学 一种中文实体提取方法及装置
CN111291550B (zh) * 2020-01-17 2021-09-03 北方工业大学 一种中文实体提取方法及装置
CN111309871B (zh) * 2020-03-26 2024-01-30 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111309871A (zh) * 2020-03-26 2020-06-19 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111506725B (zh) * 2020-04-17 2021-06-22 北京百度网讯科技有限公司 生成摘要的方法和装置
CN111506725A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 生成摘要的方法和装置
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN112069809B (zh) * 2020-08-11 2022-05-24 桂林电子科技大学 一种缺失文本生成方法及系统
CN112364225A (zh) * 2020-09-30 2021-02-12 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112148863B (zh) * 2020-10-15 2022-07-01 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112256876A (zh) * 2020-10-26 2021-01-22 南京工业大学 基于多记忆注意力网络的方面级情感分类模型
CN112464657B (zh) * 2020-12-07 2022-07-08 上海交通大学 混合式文本摘要生成方法、系统、终端及存储介质
CN112464657A (zh) * 2020-12-07 2021-03-09 上海交通大学 混合式文本摘要生成方法、系统、终端及存储介质
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112598044B (zh) * 2020-12-17 2024-04-02 中山大学 一种基于多通道图卷积的文本分类方法
CN112598044A (zh) * 2020-12-17 2021-04-02 中山大学 一种基于多通道图卷积的文本分类方法
CN112732898A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 文献摘要生成方法、装置、计算机设备及存储介质
WO2022142121A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112966073A (zh) * 2021-04-07 2021-06-15 华南理工大学 一种基于语义和浅层特征的短文本匹配方法
CN113127631B (zh) * 2021-04-23 2022-07-01 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法
CN113282742B (zh) * 2021-04-30 2022-08-12 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113688606A (zh) * 2021-07-30 2021-11-23 达观数据(苏州)有限公司 一种自动化进行文档报告写作的方法
CN113626584A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN113590828A (zh) * 2021-08-12 2021-11-02 杭州东方通信软件技术有限公司 一种通话关键信息的获取方法及装置
CN113590828B (zh) * 2021-08-12 2024-07-12 杭州东方通信软件技术有限公司 一种通话关键信息的获取方法及装置
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及系统
CN113609840B (zh) * 2021-08-25 2023-06-16 西华大学 一种汉语法律判决摘要生成方法及系统
CN114996442A (zh) * 2022-05-27 2022-09-02 北京中科智加科技有限公司 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN115774993B (zh) * 2022-12-29 2023-09-08 广东南方网络信息科技有限公司 一种基于句法分析的条件类错误识别方法及装置
CN115774993A (zh) * 2022-12-29 2023-03-10 广东南方网络信息科技有限公司 一种基于句法分析的条件类错误识别方法及装置

Also Published As

Publication number Publication date
CN110348016B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN110348016A (zh) 基于句子关联注意力机制的文本摘要生成方法
CN108804495B (zh) 一种基于增强语义的自动文本摘要方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111858932B (zh) 基于Transformer的多重特征中英文情感分类方法及系统
Guo et al. Question generation from sql queries improves neural semantic parsing
CN109522411A (zh) 一种基于神经网络的写作辅助方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110688861B (zh) 一种多特征融合的句子级译文质量估计方法
CN110795556A (zh) 一种基于细粒度插入式解码的摘要生成方法
CN113127631B (zh) 基于多头自注意力机制和指针网络的文本摘要方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN110110140A (zh) 基于注意力扩展编解码网络的视频摘要方法
CN109062910A (zh) 基于深度神经网络的句子对齐方法
CN111723196B (zh) 基于多任务学习的单文档摘要生成模型构建方法及装置
CN110717843A (zh) 一种可复用的法条推荐框架
CN112417854A (zh) 中文文档抽取式摘要方法
CN110032729A (zh) 一种基于神经图灵机的自动摘要生成方法
CN111666756A (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN112926344A (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和系统
CN115841119A (zh) 一种基于图结构的情绪原因提取方法
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant