CN109145105A - 一种融合信息选择与语义关联的文本摘要模型生成算法 - Google Patents
一种融合信息选择与语义关联的文本摘要模型生成算法 Download PDFInfo
- Publication number
- CN109145105A CN109145105A CN201810830720.9A CN201810830720A CN109145105A CN 109145105 A CN109145105 A CN 109145105A CN 201810830720 A CN201810830720 A CN 201810830720A CN 109145105 A CN109145105 A CN 109145105A
- Authority
- CN
- China
- Prior art keywords
- word
- abstract
- formula
- information
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合信息选择与语义关联的文本摘要模型生成算法,首先基于Encoder‑Decoder模型的基础之上结合注意力机制以获取输入序列足够的信息;接着采用拷贝机制与覆盖度机制解决生成摘要中的未登入词问题与子句重复的问题;然后设计一种选择网络,通过该网络对原文进行二次编码以过滤冗余信息;最后通过比较原文与摘要的语义相关度,校正摘要的语义,提升摘要与原文的语义关联。
Description
技术领域
本发明涉及信息选择与语义关联领域,特别是一种融合信息选择与语义关联的文本摘要模型生成算法。
背景技术
基于encoder-decoder框架的Seq2Seq模型于2014年在机器翻译领域中被Sutskever等人提出并流行开来,其意义在于完全基于数据本身,从数据中学习特征出来,并且相比于其他抽象式摘要方法可以得到更好的效果。Rush等人在2015年发表的论文中将神经语言模型和基于上下文的输入编码器相结合,提出了一种基于encoder-decoder框架的句子摘要模型,在给定输入句子的情况下,逐个生成摘要的每个词。Lopyrev等人用LSTM作为encoder-decoder框架的模型,并且使用了注意力模型来生成新闻文章的标题,效果很好。同时又提出了一种简化版的注意力机制(attention mechanism),相比于复杂版的注意力机制在解决新闻标题生成问题上有更好的效果。Cheng等人提出一种由分层文档encoder和基于注意力机制的抽取器组成的单文档摘要框架,该框架能实现词层面与句子层面的摘要。Tan等人提出一种新型的基于图结构的注意力机制,能发现文档中的显著的信息,在此基础之上提出一种分层次的解码算法生成长序列摘要。
近年来,Seq2Seq和注意力模型的大规模使用将抽象式的摘要研究提高了一个水平。然而在文本摘要的研究中仍然存在许多问题与瓶颈需待解决。例如,在语言模型普遍存在的未登入词(out-of-vocabulary)问题,人名、机构名等这些专有名词并未在给定的词表中出现,在生成摘要时无法生成这些词;在生成多句摘要时,Seq2Seq模型中普遍存在摘要结果中子句重复、信息冗余的问题;生成的摘要的语义与原文的语义可能存在偏差甚至大相径庭的情况。由此可见,生成摘要的准确性以及可读性有较大提升空间。
发明内容
有鉴于此,本发明的目的是提出一种融合信息选择与语义关联的文本摘要模型生成算法,能够综合改善生成摘要中存在的未登入词、句子重复、信息冗余以及生成摘要的语义与原文的语义存在偏差甚至大相径庭等问题。
本发明采用以下方案实现:一种融合信息选择与语义关联的文本摘要模型生成算法,包括以下步骤:
步骤S1:基于Encoder-Decoder模型的基础之上结合注意力机制,以获取输入序列的足够信息;
步骤S2:采用拷贝机制与覆盖度机制解决未登入词问题与生成摘要子句重复的问题;
步骤S3:设计一种选择网络,通过对编码器生成的隐含层进行过滤,从输入原文的编码信息中筛选出更为有用的信息作为输入原文的二次编码信息,以实现信息选择的目的,过滤冗余信息;
步骤S4:通过比较原文与摘要的语义相关度,校正摘要的语义,提升摘要与原文的语义关联,得到最后模型。
进一步地,步骤S1具体包括以下步骤:
步骤S11:将注意力机制引入Encoder-Decoder模型之中;
步骤S12:编码器将输入编码成一个向量序列;在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理,生成当前步骤的语义向量;
步骤S13:在产生输出的时候,先产生一个注意力分布,表示接下来输出的时候要重点关注输入序列中的哪些部分,然后根据关注的区域来产生下一个输出。
进一步地,所述Encoder-Decoder模型采用双向LSTM作为编码器Encoder,生成由编码器各个隐含层状态所组成的序列其中表示正向LSTM的隐状态,表示反向LSTM的隐状态;解码器decoder由单向LSTM组成,在解码器执行第t步时,通过结合上一步生成词yt-1与解码器状态st生成该步中的摘要结果yt;
解码器执行第t步时的注意力分布采用下式计算:
式中,v、Wh、Ws、battn是待学习的参数,hi表示编码器输出;
采用下式利用所述注意力分布生成语义向量c:
通过结合语义向量c与解码器状态st生成词表的概率分布Pvocab:
Pvocab=softmax(V'(V[st,c]+b)+b');
式中,V'、V、b、b'是待学习的参数,Pvocab表示生成下一个词时词表中所有词的概率分布,通过该概率分布,获取预测词的概率P(w):
P(w)=Pvocab(w);
式中,w表示预测词。
进一步地,步骤S2具体包括以下步骤:
步骤S21:采用拷贝机制定义一个生成概率pgen∈[0,1]:
式中,bptr为待学习的参数,σ为sigmoid激活函数,pgen表示选择从词表生成词或是从输入序列中拷贝对应词的概率,c表示语义向量,st表示解码器状态,yt表示当前步骤中的摘要结果;
步骤S22:通过将未登入词加入词表生成拓展词表并通过拓展词表的概率分布获取预测词的概率,进而将公式P(w)=Pvocab(w)替换为:
式中,wi表示出现在原文中的词;
步骤S23:采用覆盖度机制为维持一个覆盖度向量ct,由于注意力分布含有原文的位置信息,通过避免相同位置词重复出现来避免生成重复的文本;覆盖度向量通过累加解码器之前步骤的注意力分布来表示:
式中,表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量;
步骤S24:将覆盖度向量融合到注意力机制中,表示在每一步生成注意力分布时能考虑到之前生成词的分布情况,避免生成重复的文本,即在公式中引入覆盖度向量,得到下式:
式中,wc为待学习的参数;
步骤S25:采用下式来定义覆盖度损失以惩罚重复生成相同位置词的情况:
式中,表示表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量;在训练时,解码器第t步的损失函数定义如下:
式中,表示标准摘要结果中的目标词;
整个长度为T的摘要序列的损失为:
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:保留RNN的最后一个状态或是平均池化RNN的输出来提取句子或是整个文档的信息,并对原文进行卷积,获取词之间的上下文关系,获取文档中词的特征信息;
步骤S32:通过结合文档每个词的特征信息与整个文档的特征信息对编码器的输出进行选择,生成二次编码信息,使主要内容暴露出来。
进一步地,步骤S31具体为:
步骤S311:将一个长度为n的文档表示为一个矩阵W=[w1,w2,…,wn]∈Rn×d,其wi中表示第i个词的词向量;一个宽度为h的卷积核K∈Rh×d能够将一个文档中连续的h个词进行卷积生成一个新的特征,通过卷积操作遍历整个文档能够生成一个特征映射f=[f1,f2,...,fn-h+1]∈Rn-h+1,其中fi定义为:
fi=ReLU(K·Wi:i+h-1+b);
式中,Wi:i+h-1表示窗口大小为h的词向量矩阵,b表示偏置;
步骤S312:通过最大池化特征映射,将结果f'作为卷积核K对应于该文档每个词的特征信息:
f'=max(f);
步骤S313:通过连结双向LSTM的正向最后一个隐含状态与反向第一个隐藏状态来表示整个文档的特征信息s:
进一步地,步骤S32具体包括以下步骤:
步骤S321:对于编码器每个输出结果hi,选择网络通过将hi与s、f'结合生成一个权重映射sGatei:
sGatei=σ(Ishi+Jss+Ksf'+b)
式中,Is、Js、Ks为待学习的参数;sGatei综合文档的特征信息与文档中词的特征调整编码结果,对突出的主要信息赋予更高的权重,对于不重要的信息弱化其对整个文档的作用;
步骤S322:每个词根据该权重映射将编码器输出hi映射为hi'作为二次编码结果:
hi'=hi·sGatei;
步骤S323:选择二次编码结果h1',h2',...,hn'代替原编码结果h1,h2,...,hn作为输入解码器的文档编码结果,通过提高原文质量的方式来提高生成的摘要的质量。
进一步地,步骤S4具体包括以下步骤:
步骤S41:编码器Encoder的最后一个输出状态hn能表达原文的语义Vt信息,解码器的最后一个输出状态sm包含有原文与生成摘要二者的信息,使二者相减来表示摘要的语义信息Vs:
Vs=sm-hn;
步骤S42:采用余弦相似度计算原文与摘要的语义相似度:
式中,Vs表示生成摘要的语义向量,Vt表示原文的语义向量;
步骤S43:在公式中引入语义相似度,得到最终的损失函数如下:
loss'=loss-cos(VS,Vt);
在训练过程中降低最终的损失函数来最大化原文与生成摘要的余弦相似度、最小化覆盖度。
与现有技术相比,本发明有以下有益效果:本发明设计了一种选择网络对编码器的输出进行筛选,保留关键内容同时过滤掉无效的信息,提供给解码器高质量的编码结果,帮助减少生成摘要的冗余信息;通过将拷贝机制、覆盖度机制与语义相关性相融合,解决未登入词问题同时,减少重复信息的生成并提高摘要与原文的语义关联,提高摘要质量。
附图说明
图1为本发明实施例中Encoder-Decoder模型示意图。
图2为本发明实施例中基于注意力机制的Seq2Seq模型示意图。
图3为本发明实施例中双向LSTM作为编码器的Seq2Seq模型示意图。
图4为本发明实施例中词向量卷积模型示意图。
图5为本发明实施例中选择网络模型示意图。
图6为本发明实施例中融合信息选择与语义关联模型示意图。
图7为本发明实施例的方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图7所示,本实施例提供了一种融合信息选择与语义关联的文本摘要模型生成算法,包括以下步骤:
步骤S1:基于Encoder-Decoder模型的基础之上结合注意力机制,以获取输入序列的足够信息;
步骤S2:采用拷贝机制与覆盖度机制解决未登入词问题与生成摘要子句重复的问题;
步骤S3:设计一种选择网络,通过对编码器生成的隐含层进行过滤,从输入原文的编码信息中筛选出更为有用的信息作为输入原文的二次编码信息,以实现信息选择的目的,过滤冗余信息;
步骤S4:通过比较原文与摘要的语义相关度,校正摘要的语义,提升摘要与原文的语义关联,得到最后模型。
如图1所示,在Encoder-Decoder模型中,由于编码与解码之间的唯一联系为一个固定长度的语义向量c,编码器要将整个序列的信息压缩进c中,但是由于语义向量无法完全表示整个序列的信息,且先输入的内容携带的信息会被后输入的信息覆盖掉。输入序列越长,这个现象就越严重。这就使得在解码一开始就没有获得输入序列足够的信息,导致解码时的准确度降低。
在本实施例中,步骤S1具体包括以下步骤:
步骤S11:将注意力机制引入Encoder-Decoder模型之中;注意力模型不再要求编码器将所有输入信息编码到一个固定长度的向量中。
步骤S12:编码器将输入编码成一个向量序列;在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理,生成当前步骤的语义向量;即图2所示的语义向量c1、c2、c3,这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。
步骤S13:在产生输出的时候,先产生一个注意力分布,表示接下来输出的时候要重点关注输入序列中的哪些部分,然后根据关注的区域来产生下一个输出。
如图3所示,在本实施例中,所述Encoder-Decoder模型采用双向LSTM作为编码器Encoder,生成由编码器各个隐含层状态所组成的序列其中表示正向LSTM的隐状态,表示反向LSTM的隐状态;解码器decoder由单向LSTM组成,在解码器执行第t步时,通过结合上一步生成词yt-1与解码器状态st生成该步中的摘要结果yt;
解码器执行第t步时的注意力分布采用下式计算:
式中,v、Wh、Ws、battn是待学习的参数,hi表示编码器输出;
采用下式利用所述注意力分布生成语义向量c:
通过结合语义向量c与解码器状态st生成词表的概率分布Pvocab:
Pvocab=softmax(V'(V[st,c]+b)+b');
式中,V'、V、b、b'是待学习的参数,Pvocab表示生成下一个词时词表中所有词的概率分布,通过该概率分布,获取预测词的概率P(w):
P(w)=Pvocab(w);
式中,w表示预测词。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:采用拷贝机制定义一个生成概率pgen∈[0,1]:
式中,bptr为待学习的参数,σ为sigmoid激活函数,pgen表示选择从词表生成词或是从输入序列中拷贝对应词的概率,c表示语义向量,st表示解码器状态,yt表示当前步骤中的摘要结果;
步骤S22:通过将未登入词加入词表生成拓展词表并通过拓展词表的概率分布获取预测词的概率,进而将公式P(w)=Pvocab(w)替换为:
式中,wi表示出现在原文中的词;
步骤S23:采用覆盖度机制为维持一个覆盖度向量ct,由于注意力分布含有原文的位置信息,通过避免相同位置词重复出现来避免生成重复的文本;覆盖度向量通过累加解码器之前步骤的注意力分布来表示:
式中,表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量;
步骤S24:将覆盖度向量融合到注意力机制中,表示在每一步生成注意力分布时能考虑到之前生成词的分布情况,避免生成重复的文本,即在公式中引入覆盖度向量,得到下式:
式中,wc为待学习的参数;
步骤S25:采用下式来定义覆盖度损失以惩罚重复生成相同位置词的情况:
式中,表示表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量;在训练时,解码器第t步的损失函数定义如下:
式中,表示标准摘要结果中的目标词;
整个长度为T的摘要序列的损失为:
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:保留RNN的最后一个状态或是平均池化RNN的输出来提取句子或是整个文档的信息,并对原文进行卷积,获取词之间的上下文关系,获取文档中词的特征信息;
步骤S32:通过结合文档每个词的特征信息与整个文档的特征信息对编码器的输出进行选择,生成二次编码信息,使主要内容暴露出来。
在本实施例中,步骤S31具体为:
步骤S311:将一个长度为n的文档表示为一个矩阵W=[w1,w2,…,wn]∈Rn×d,其wi中表示第i个词的词向量;一个宽度为h的卷积核K∈Rh×d能够将一个文档中连续的h个词进行卷积生成一个新的特征,通过卷积操作遍历整个文档能够生成一个特征映射f=[f1,f2,...,fn-h+1]∈Rn-h+1,其中fi定义为:
fi=ReLU(K·Wi:i+h-1+b);
式中,Wi:i+h-1表示窗口大小为h的词向量矩阵,b表示偏置;
步骤S312:通过最大池化特征映射,将结果f'作为卷积核K对应于该文档每个词的特征信息:
f'=max(f);
过程如图4所示,采用3个卷积核进行卷积操作,其中每个卷积核宽度h为2。
步骤S313:由于RNN的最后一个输出包含有整个文档的特征信息,因此通过连结双向LSTM的正向最后一个隐含状态与反向第一个隐藏状态来表示整个文档的特征信息s:
在本实施例中,步骤S32具体包括以下步骤:
步骤S321:对于编码器每个输出结果hi,选择网络通过将hi与s、f'结合生成一个权重映射sGatei:
sGatei=σ(Ishi+Jss+Ksf'+b)
式中,Is、Js、Ks为待学习的参数;sGatei综合文档的特征信息与文档中词的特征调整编码结果,对突出的主要信息赋予更高的权重,对于不重要的信息弱化其对整个文档的作用;
步骤S322:每个词根据该权重映射将编码器输出hi映射为hi'作为二次编码结果:
hi'=hi·sGatei;
步骤S323:如图5所示,选择二次编码结果h1',h2',...,hn'代替原编码结果h1,h2,...,hn作为输入解码器的文档编码结果,通过提高原文质量的方式来提高生成的摘要的质量。
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:如图6所示,编码器Encoder的最后一个输出状态hn能表达原文的语义Vt信息,解码器的最后一个输出状态sm包含有原文与生成摘要二者的信息,使二者相减来表示摘要的语义信息Vs:
Vs=sm-hn;
步骤S42:采用余弦相似度计算原文与摘要的语义相似度:
式中,Vs表示生成摘要的语义向量,Vt表示原文的语义向量;
步骤S43:为了使模型生成的摘要结果更全面,既能处理摘要中普遍存在的信息重复的问题和未登入词问题,又能改善原文与摘要语义存在偏差的情况,提出的语义关联的方法将拷贝机制、覆盖度机制与原文、摘要语义相关性相结合,减少重复信息的同时,提高摘要与原文的语义关联,从而提高摘要质量。在公式中引入语义相似度,得到最终的损失函数如下:
loss'=loss-cos(VS,Vt);
上式考虑了原文-摘要的余弦相似度,训练过程通过降低损失函数来最大化原文与生成摘要的余弦相似度、最小化覆盖度,以提高原文摘要语义关联与降低生成摘要重复率,提升摘要结果质量。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:包括以下步骤:
步骤S1:基于Encoder-Decoder模型的基础之上结合注意力机制,以获取输入序列的足够信息;
步骤S2:采用拷贝机制与覆盖度机制解决未登入词问题与生成摘要子句重复的问题;
步骤S3:设计一种选择网络,通过对编码器生成的隐含层进行过滤,从输入原文的编码信息中筛选出更为有用的信息作为输入原文的二次编码信息,以实现信息选择的目的,过滤冗余信息;
步骤S4:通过比较原文与摘要的语义相关度,校正摘要的语义,提升摘要与原文的语义关联,得到最后模型。
2.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:步骤S1具体包括以下步骤:
步骤S11:将注意力机制引入Encoder-Decoder模型之中;
步骤S12:编码器将输入编码成一个向量序列;在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理,生成当前步骤的语义向量;
步骤S13:在产生输出的时候,先产生一个注意力分布,表示接下来输出的时候要重点关注输入序列中的哪些部分,然后根据关注的区域来产生下一个输出。
3.根据权利要求2所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:所述Encoder-Decoder模型采用双向LSTM作为编码器Encoder,生成由编码器各个隐含层状态所组成的序列其中表示正向LSTM的隐状态,表示反向LSTM的隐状态;解码器decoder由单向LSTM组成,在解码器执行第t步时,通过结合上一步生成词yt-1与解码器状态st生成该步中的摘要结果yt;
解码器执行第t步时的注意力分布采用下式计算:
式中,v、Wh、Ws、battn是待学习的参数,hi表示编码器输出;
采用下式利用所述注意力分布生成语义向量c:
通过结合语义向量c与解码器状态st生成词表的概率分布Pvocab:
Pvocab=softmax(V′(V[st,c]+b)+b′);
式中,V′、V、b、b′是待学习的参数,Pvocab表示生成下一个词时词表中所有词的概率分布,通过该概率分布,获取预测词的概率P(w):
P(w)=Pvocab(w);
式中,w表示预测词。
4.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:步骤S2具体包括以下步骤:
步骤S21:采用拷贝机制定义一个生成概率pgen∈[0,1]:
式中,bptr为待学习的参数,σ为sigmoid激活函数,pgen表示选择从词表生成词或是从输入序列中拷贝对应词的概率,c表示语义向量,st表示解码器状态,yt表示当前步骤中的摘要结果;
步骤S22:通过将未登入词加入词表生成拓展词表并通过拓展词表的概率分布获取预测词的概率,进而将公式P(w)=Pvocab(w)替换为:
式中,wi表示出现在原文中的词;
步骤S23:采用覆盖度机制为维持一个覆盖度向量ct,由于注意力分布含有原文的位置信息,通过避免相同位置词重复出现来避免生成重复的文本;覆盖度向量通过累加解码器之前步骤的注意力分布来表示:
式中,表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量;
步骤S24:将覆盖度向量融合到注意力机制中,表示在每一步生成注意力分布时能考虑到之前生成词的分布情况,避免生成重复的文本,即在公式中引入覆盖度向量,得到下式:
式中,wc为待学习的参数;
步骤S25:采用下式来定义覆盖度损失以惩罚重复生成相同位置词的情况:
式中,表示表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量;在训练时,解码器第t步的损失函数定义如下:
式中,表示标准摘要结果中的目标词;
整个长度为T的摘要序列的损失为:
5.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:保留RNN的最后一个状态或是平均池化RNN的输出来提取句子或是整个文档的信息,并对原文进行卷积,获取词之间的上下文关系,获取文档中词的特征信息;
步骤S32:通过结合文档每个词的特征信息与整个文档的特征信息对编码器的输出进行选择,生成二次编码信息,使主要内容暴露出来。
6.根据权利要求5所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:步骤S31具体为:
步骤S311:将一个长度为n的文档表示为一个矩阵W=[w1,w2,...,wn]∈Rn×d,其wi中表示第i个词的词向量;一个宽度为h的卷积核K∈Rh×d能够将一个文档中连续的h个词进行卷积生成一个新的特征,通过卷积操作遍历整个文档能够生成一个特征映射f=[f1,f2,...,fn-h+1]∈Rn-h+1,其中fi定义为:
fi=ReLU(K·Wi∶i+h-1+b);
式中,Wi∶i+h1表示窗口大小为h的词向量矩阵,b表示偏置;
步骤S312:通过最大池化特征映射,将结果f′作为卷积核K对应于该文档每个词的特征信息:
f′=max(f);
步骤S313:通过连结双向LSTM的正向最后一个隐含状态与反向第一个隐藏状态来表示整个文档的特征信息s:
。
7.根据权利要求5所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:步骤S32具体包括以下步骤:
步骤S321:对于编码器每个输出结果hi,选择网络通过将hi与s、f′结合生成一个权重映射sGatei:
sGatei=σ(Ishi+Jss+Ksf′+b)
式中,Is、Js、Ks为待学习的参数;sGatei综合文档的特征信息与文档中词的特征调整编码结果,对突出的主要信息赋予更高的权重,对于不重要的信息弱化其对整个文档的作用;
步骤S322:每个词根据该权重映射将编码器输出hi映射为hi′作为二次编码结果:
hi′=hi·sGatei;
步骤S323:选择二次编码结果h1′,h2′,...,hn′代替原编码结果h1,h2,...,hn作为输入解码器的文档编码结果,通过提高原文质量的方式来提高生成的摘要的质量。
8.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法,其特征在于:步骤S4具体包括以下步骤:
步骤S41:编码器Encoder的最后一个输出状态hn能表达原文的语义Vt信息,解码器的最后一个输出状态sm包含有原文与生成摘要二者的信息,使二者相减来表示摘要的语义信息Vs:
Vs=sm-hn;
步骤S42:采用余弦相似度计算原文与摘要的语义相似度:
式中,Vs表示生成摘要的语义向量,Vt表示原文的语义向量;
步骤S43:在公式中引入语义相似度,得到最终的损失函数如下:
loss′=loss-cos(VS,Vt);
在训练过程中降低最终的损失函数来最大化原文与生成摘要的余弦相似度、最小化覆盖度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810830720.9A CN109145105B (zh) | 2018-07-26 | 2018-07-26 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810830720.9A CN109145105B (zh) | 2018-07-26 | 2018-07-26 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145105A true CN109145105A (zh) | 2019-01-04 |
CN109145105B CN109145105B (zh) | 2021-11-30 |
Family
ID=64799261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810830720.9A Active CN109145105B (zh) | 2018-07-26 | 2018-07-26 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145105B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109992775A (zh) * | 2019-03-25 | 2019-07-09 | 浙江大学 | 一种基于高级语义的文本摘要生成方法 |
CN110096986A (zh) * | 2019-04-24 | 2019-08-06 | 东北大学 | 一种基于图像识别与文本融合的博物馆展品智能导览方法 |
CN110134782A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
CN110147442A (zh) * | 2019-04-15 | 2019-08-20 | 深圳智能思创科技有限公司 | 一种可控长度的文本摘要生成系统及方法 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110472230A (zh) * | 2019-07-11 | 2019-11-19 | 平安科技(深圳)有限公司 | 中文文本的识别方法及装置 |
CN110765264A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种增强语义相关性的文本摘要生成方法 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN110889292A (zh) * | 2019-11-29 | 2020-03-17 | 福州大学 | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 |
CN110929024A (zh) * | 2019-12-10 | 2020-03-27 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
CN111125333A (zh) * | 2019-06-06 | 2020-05-08 | 北京理工大学 | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111708877A (zh) * | 2020-04-20 | 2020-09-25 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111814468A (zh) * | 2020-07-09 | 2020-10-23 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111857728A (zh) * | 2020-07-22 | 2020-10-30 | 中山大学 | 一种代码摘要生成方法和装置 |
CN112395411A (zh) * | 2019-08-15 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种文档摘要的生成方法、装置及设备 |
CN112613282A (zh) * | 2020-12-31 | 2021-04-06 | 桂林电子科技大学 | 一种文本生成方法、装置及存储介质 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
WO2021155699A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州科技大学 | 面向中文长文本自动摘要的全局编码方法 |
CN113407707A (zh) * | 2020-03-16 | 2021-09-17 | 北京沃东天骏信息技术有限公司 | 生成文本摘要的方法和装置 |
CN116136866A (zh) * | 2023-04-19 | 2023-05-19 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN117610513A (zh) * | 2024-01-22 | 2024-02-27 | 南开大学 | 一种基于知识保护及选择的主题文本生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
US20170286376A1 (en) * | 2016-03-31 | 2017-10-05 | Jonathan Mugan | Checking Grammar Using an Encoder and Decoder |
CN107291836A (zh) * | 2017-05-31 | 2017-10-24 | 北京大学 | 一种基于语义相关度模型的中文文本摘要获取方法 |
CN107483880A (zh) * | 2017-07-05 | 2017-12-15 | 武汉烽火众智数字技术有限责任公司 | 一种线上线下协同交互的移动视频侦查装置及其侦查方法 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
-
2018
- 2018-07-26 CN CN201810830720.9A patent/CN109145105B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170286376A1 (en) * | 2016-03-31 | 2017-10-05 | Jonathan Mugan | Checking Grammar Using an Encoder and Decoder |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN107291836A (zh) * | 2017-05-31 | 2017-10-24 | 北京大学 | 一种基于语义相关度模型的中文文本摘要获取方法 |
CN107483880A (zh) * | 2017-07-05 | 2017-12-15 | 武汉烽火众智数字技术有限责任公司 | 一种线上线下协同交互的移动视频侦查装置及其侦查方法 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
Non-Patent Citations (3)
Title |
---|
QINGYU ZHOU ET AL.: ""Selective Encoding for Abstractive Sentence Summarization"", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
SEE, A ET AL.: ""Get to the point: summarization with pointer-generator networks"", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
沈华东 等: ""AM_BRNN_一种基于深度学习的文本摘要自动抽取模型"", 《小型微型计算机系统》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109992775A (zh) * | 2019-03-25 | 2019-07-09 | 浙江大学 | 一种基于高级语义的文本摘要生成方法 |
CN110147442A (zh) * | 2019-04-15 | 2019-08-20 | 深圳智能思创科技有限公司 | 一种可控长度的文本摘要生成系统及方法 |
CN110147442B (zh) * | 2019-04-15 | 2023-06-06 | 深圳智能思创科技有限公司 | 一种可控长度的文本摘要生成系统及方法 |
CN110096986A (zh) * | 2019-04-24 | 2019-08-06 | 东北大学 | 一种基于图像识别与文本融合的博物馆展品智能导览方法 |
CN110096986B (zh) * | 2019-04-24 | 2022-04-12 | 东北大学 | 一种基于图像识别与文本融合的博物馆展品智能导览方法 |
CN110134782A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
CN110134782B (zh) * | 2019-05-14 | 2021-05-18 | 南京大学 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110209801B (zh) * | 2019-05-15 | 2021-05-14 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN111125333A (zh) * | 2019-06-06 | 2020-05-08 | 北京理工大学 | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 |
CN111125333B (zh) * | 2019-06-06 | 2022-05-27 | 北京理工大学 | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 |
CN110472230A (zh) * | 2019-07-11 | 2019-11-19 | 平安科技(深圳)有限公司 | 中文文本的识别方法及装置 |
CN110472230B (zh) * | 2019-07-11 | 2023-09-05 | 平安科技(深圳)有限公司 | 中文文本的识别方法及装置 |
CN110390103B (zh) * | 2019-07-23 | 2022-12-27 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110472238B (zh) * | 2019-07-25 | 2022-11-18 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN112395411A (zh) * | 2019-08-15 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种文档摘要的生成方法、装置及设备 |
CN110765264A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种增强语义相关性的文本摘要生成方法 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN110795556B (zh) * | 2019-11-01 | 2023-04-18 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN110889292B (zh) * | 2019-11-29 | 2022-06-03 | 福州大学 | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 |
CN110889292A (zh) * | 2019-11-29 | 2020-03-17 | 福州大学 | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 |
CN110929024A (zh) * | 2019-12-10 | 2020-03-27 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
CN110929024B (zh) * | 2019-12-10 | 2021-07-02 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
WO2021155699A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州科技大学 | 面向中文长文本自动摘要的全局编码方法 |
CN113407707A (zh) * | 2020-03-16 | 2021-09-17 | 北京沃东天骏信息技术有限公司 | 生成文本摘要的方法和装置 |
CN113407707B (zh) * | 2020-03-16 | 2024-10-18 | 北京沃东天骏信息技术有限公司 | 生成文本摘要的方法和装置 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111506725B (zh) * | 2020-04-17 | 2021-06-22 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111708877B (zh) * | 2020-04-20 | 2023-05-09 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111708877A (zh) * | 2020-04-20 | 2020-09-25 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111814468B (zh) * | 2020-07-09 | 2021-02-26 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111814468A (zh) * | 2020-07-09 | 2020-10-23 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
CN111857728B (zh) * | 2020-07-22 | 2021-08-31 | 中山大学 | 一种代码摘要生成方法和装置 |
CN111857728A (zh) * | 2020-07-22 | 2020-10-30 | 中山大学 | 一种代码摘要生成方法和装置 |
CN112613282A (zh) * | 2020-12-31 | 2021-04-06 | 桂林电子科技大学 | 一种文本生成方法、装置及存储介质 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
CN116136866A (zh) * | 2023-04-19 | 2023-05-19 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN116136866B (zh) * | 2023-04-19 | 2023-06-27 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN117610513A (zh) * | 2024-01-22 | 2024-02-27 | 南开大学 | 一种基于知识保护及选择的主题文本生成方法 |
CN117610513B (zh) * | 2024-01-22 | 2024-04-02 | 南开大学 | 一种基于知识保护及选择的主题文本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109145105B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145105A (zh) | 一种融合信息选择与语义关联的文本摘要模型生成算法 | |
Wu et al. | " Mask and Infill": Applying Masked Language Model to Sentiment Transfer | |
Pfeiffer et al. | Modular deep learning | |
CN109508462A (zh) | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 | |
CN109657051A (zh) | 文本摘要生成方法、装置、计算机设备及存储介质 | |
CN109902750A (zh) | 基于双向单注意力机制图像描述方法 | |
Li et al. | Residual attention-based LSTM for video captioning | |
CN109783657A (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
Yang et al. | Aspect and sentiment aware abstractive review summarization | |
CN111966820B (zh) | 一种生成式摘要模型构建、提取生成式摘要方法及系统 | |
Yi et al. | Mixpoet: Diverse poetry generation via learning controllable mixed latent space | |
CN114880461A (zh) | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN114581992A (zh) | 一种基于预训练StyleGAN的人脸表情合成方法及系统 | |
Cheng et al. | Stack-VS: Stacked visual-semantic attention for image caption generation | |
CN111191015A (zh) | 一种神经网络电影知识智能对话方法 | |
Iida et al. | Exploiting background knowledge in compact answer generation for why-questions | |
Ji et al. | Relation constraint self-attention for image captioning | |
Wang et al. | Improving conversational recommender system via contextual and time-aware modeling with less domain-specific knowledge | |
CN114020954A (zh) | 一种用于体现用户意图和风格的个性化图像描述方法 | |
Chen et al. | A news image captioning approach based on multimodal pointer‐generator network | |
Yuan et al. | A human–machine interaction scheme based on background knowledge in 6G-enabled IoT environment | |
Rahman et al. | Leveraging entity-type properties in the relational context for knowledge graph embedding | |
CN116629272A (zh) | 自然语言控制的文本生成方法及系统 | |
Li et al. | A framework of data augmentation while active learning for Chinese named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |