CN110390010A - 一种自动文本摘要方法 - Google Patents

一种自动文本摘要方法 Download PDF

Info

Publication number
CN110390010A
CN110390010A CN201910699308.2A CN201910699308A CN110390010A CN 110390010 A CN110390010 A CN 110390010A CN 201910699308 A CN201910699308 A CN 201910699308A CN 110390010 A CN110390010 A CN 110390010A
Authority
CN
China
Prior art keywords
vector
indicate
result
lstm
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910699308.2A
Other languages
English (en)
Other versions
CN110390010B (zh
Inventor
李建平
顾小丰
胡健
李伟
于腾秋
孙睿男
李顺利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910699308.2A priority Critical patent/CN110390010B/zh
Publication of CN110390010A publication Critical patent/CN110390010A/zh
Application granted granted Critical
Publication of CN110390010B publication Critical patent/CN110390010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动文本摘要方法,将卷积神经网络CNN、自注意力机制self‑attention、信息选择门和Maxout网络进行结合使用,在信息编码阶段控制原文信息的流入,以选择重要信息;同时在解码阶段进一步使用Maxout网络选取最重要的解码信息作为输出。本发明有效的解决了生成摘要词重复问题,并能够在保留原文重要信息的基础上,尽可能的过滤掉无用信息。

Description

一种自动文本摘要方法
技术领域
本发明属于文本信息处理技术领域,具体涉及一种自动文本摘要方法的设计。
背景技术
目前国内外常用的自动文本摘要技术可以分为三种,根据摘要产生的不同方法分为:抽取式、压缩式和生成式。
抽取式方法实现简单,只是从文档中抽取已有的句子形成摘要,可以保留文档中完整的句子,生成的摘要可读性良好,可看作一个组合优化问题。早年抽取式方法应用较为广泛,发展至今,抽取式摘要已经是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001,再对上述方法得到的关键语句进行排序,即可获得摘要,然而抽取式摘要主要考虑单词词频,并没有过多的语义信息。
压缩式方法是同时对原文的句子进行抽取与压缩或抽取与融合,可以有效提高ROUGE值,但会牺牲句子的可读性。ILP是经典的压缩式方法:将摘要看做一个带约束的优化问题,基于整数线性规划进行求解,同时进行句子抽取与冗余去除。
而生成式方法通常需要自然语言理解技术来执行文本的语法和语义分析,融合信息,并使用自然语言生成技术生成新的摘要句子。随着2005年神经网络的二次兴起,深度学习在人工智能领域崛起,基于深度学习的生成式文本摘要方法在摘要生成质量和流畅度上都有了质的飞跃,也成为了摘要生成的主流研究方向。
相比自然语言处理任务中的情感分析、机器翻译、对话系统等热门领域,文本摘要起初在国内并没有受到足够的重视,但是在后期也有了快速发展。至于生成式的文本摘要起始于2006年,当时深度学习再次掀起学术研究热潮并走向了工业应用,促进了其在自然语言处理领域的尝试。2014年Bengio提出Sequence to Sequence(seq2seq)模型并应用于机器翻译中,在当时取得了超越人类的水平的成果。机器翻译和文本摘要一样是端到端文本生成任务,因此研究者们尝试将seq2seq的思想应用到文本摘要上,由此端到端文本摘要生成的研究自此开始。2016年Google开源了新闻标题生成任务的tensorflow代码:textSum,该任务基于seq2seq注意模型,自此,众多研究者基于这个现有的模型进行了一系列序列到序列摘要模型的研究,生成式自动文本摘要技术得到迅速的发展。
由此可知,随着深度学习和自然语言处理技术的发展,生成式自动文本摘要技术也在不断地前进和完善。但是,迄今为止,生成式文本摘要技术仍然存在生成的摘要中存在重复词、语义无关等问题。
发明内容
本发明的目的是为了解决现有的自动文本摘要技术生成的摘要存在摘要重复和语义无关的问题,提出了一种自动文本摘要方法,能够在保留原文重要信息的基础上,尽可能的过滤无用信息,从而使生成的摘要避免出现重复摘要词且语义相关。
本发明的技术方案为:一种自动文本摘要方法,包括以下步骤:
S1、基于卷积神经网络和自注意力机制对文本信息的上下文进行全局编码,并采用信息选择门对全局编码结果进行过滤,得到编码输出结果。
S2、基于注意力机制和Maxout网络对编码输出结果进行解码,生成文本摘要。
进一步地,步骤S1包括以下分步骤:
S11、采用双向LSTM网络得到两个方向的LSTM输出串联结果hi
S12、将LSTM输出串联结果hi输入卷积神经网络,得到表示矩阵gi
S13、对表示矩阵gi进行自注意力机制计算,得到全局相关性表示矩阵g′i
S14、采用信息选择门对LSTM输出串联结果hi和全局相关性表示矩阵g′i进行过滤计算,得到编码输出结果
进一步地,步骤S11中两个方向的LSTM输出串联结果hi表示为:
其中表示采用LSTM网络得到的第i个上下文信息正向输出结果,表示采用LSTM网络得到的第i个上下文信息反向输出结果,i=1,2,...,n,n为全局编码的上下文信息个数。
进一步地,步骤S12中的卷积神经网络包括并联的三个卷积单元和一个拼接层;
第一个卷积单元包括依次连接的三个卷积层,其卷积核k的大小分别为k=1,k=3,k=3;
第二个卷积单元包括依次连接的两个卷积层,其卷积核k的大小分别为k=1,k=3;
第三个卷积单元包括一个卷积层,其卷积核k的大小为k=1;
拼接层用于将三个卷积单元的输出结果进行拼接,得到表示矩阵gi,拼接公式为:
gi=ReLU(W[hi-k/2,...,hi+k/2]+b)
其中ReLU(·)表示ReLU函数,W表示拼接权重矩阵,b表示拼接偏置向量。
进一步地,步骤S13中自注意力机制计算的计算公式为:
其中Attention(·)表示自注意力机制计算函数,Q,V均为卷积神经网络生成的表示矩阵gi,K=WattV,Watt为可学习矩阵,softmax(·)为softmax函数,dk表示卷积核k的表示维度。
进一步地,步骤S14中的信息选择门具体为:
其中σ(·)表示sigmoid函数。
进一步地,步骤S2包括以下分步骤:
S21、通过最后一个编码输出结果初始化LSTM网络的隐藏状态,并通过LSTM网络计算得到当前时间步长t的隐藏状态向量st
S22、通过注意力机制计算当前时间步长t的上下文向量ct
S23、根据隐藏状态向量st和上下文向量ct预测得到下一个摘要生成词。
S24、重复步骤S21~S23得到所有摘要生成词,将所有摘要生成词进行信息融合,并使用自然语言生成方法生成文本摘要。
进一步地,步骤S21中隐藏状态向量st的计算公式为:
st=LSTM(yt-1,ct-1,st-1)
其中LSTM(·)表示LSTM网络操作,yt-1表示前一个摘要词的词向量,ct-1表示前一个上下文向量,st-1表示前一个隐藏状态向量,初始隐藏状态向量s0为:
其中tanh(·)表示双曲正切函数,为最后一个编码输出结果,Wd表示可训练的隐藏状态权重矩阵,bd表示隐藏状态偏置向量。
进一步地,步骤S22中上下文向量ct的计算公式为:
其中表示第i个编码输出结果,i=1,2,...,n,n为全局编码的上下文信息个数,at,i表示当前时间步长t第i个编码输入的注意力权重,其计算公式为:
其中exp(·)表示指数函数,et,i表示当前时间步长t隐藏状态向量st和编码输出结果的相似分数,其计算公式为:
其中st-1表示前一个隐藏状态向量,Wa为可训练的权重矩阵参数。
进一步地,步骤S23包括以下分步骤:
S231、对前一个摘要词的词向量yt-1、当前上下文向量ct和隐藏状态向量st进行线性组合,得到读出状态向量rt
rt=Wryt-1+Urct+Vrst
其中Wr、Ur和Vr均为可训练的权重矩阵参数。
S232、将读出状态向量rt输入Maxout网络,对读出状态向量rt中每两个数字进行选取最大值操作,得到d维向量mt
其中rt,2j-1,rt,2j分别表示读出状态向量rt中的第2j-1个数字和第2j个数字。
S233、将向量mt输入softmax层进行词汇表中的单词条件概率计算,计算公式为:
p(yt|y1,...,yt-1)=softmax(Womt)
其中p(yt|y1,...,yt-1)表示当之前时刻生成摘要词的词向量分别为y1,...,yt-1时,当前时间步长t生成摘要词的词向量为yt的概率,softmax(·)为softmax函数,Wo为可训练的权重矩阵参数。
S234、选取单词条件概率最大的摘要词向量作为下一个摘要生成词。
本发明的有益效果是:本发明结合卷积神经网络CNN、自注意力机制self-attention和Maxout网络,有效的解决了生成摘要词重复问题。由于卷积神经网络可以提取整个原文本的n-gram特征,并且自注意机制学习输入原文本序列的词与词之间的长期相关性,所以信息选择门可以对文本信息执行全局编码。此外,基于CNN和自注意力机制的输出,sigmoid函数在每个维度上输出一个介于0和1之间的值向量,如果该值接近0,信息选择门将删除源表示的相应维度上的大部分信息,如果该值接近1,信息选择门将保留大部分信息,以此来控制编码阶段流向解码阶段的信息,进而有效解决了生成摘要词的重复问题。同时本发明在解码阶段采用Maxout网络进一步在预测摘要词之前过滤噪音,进一步强化了摘要效果。
附图说明
图1所示为本发明实施例提供的一种自动文本摘要方法流程图。
图2所示为本发明实施例提供的步骤S1的分步骤流程图。
图3所示为本发明实施例提供的卷积神经网络结构示意图。
图4所示为本发明实施例提供的步骤S2的分步骤流程图。
图5所示为本发明实施例提供的Maxout网络结构示意图。
图6所示为本发明实施例提供的步骤S23的分步骤流程图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种自动文本摘要方法,如图1所示,包括以下步骤S1~S2:
S1、基于卷积神经网络和自注意力机制对文本信息的上下文进行全局编码,并采用信息选择门对全局编码结果进行过滤,得到编码输出结果。
如图2所示,步骤S1包括以下分步骤S11~S14:
S11、采用双向LSTM网络得到两个方向的LSTM输出串联结果hi
其中表示采用LSTM网络得到的第i个上下文信息正向输出结果,表示采用LSTM网络得到的第i个上下文信息反向输出结果,i=1,2,...,n,n为全局编码的上下文信息个数。
S12、将LSTM输出串联结果hi输入卷积神经网络,得到表示矩阵gi
本发明实施例中,如图3所示,卷积神经网络包括并联的三个卷积单元和一个拼接层。
其中,第一个卷积单元包括依次连接的三个卷积层,其卷积核k的大小分别为k=1,k=3,k=3。本发明实施例中,使用两个k=3的卷积操作来代替一个k=5的卷积操作,以避免卷积核过大,减少特征的表征性瓶颈。一般来说,当卷积小幅度改变输入的维度时,神经网络可能会执行地更好,过多地减少维度可能会造成信息的损失,这也称为“表征性瓶颈”。此外,将k=5的卷积分解为两个k=3的卷积运算可以在不改变感受野大小的同时减少参数提升计算速度。因为一个5×5的卷积操作在计算成本上是一个3×3卷积操作的2.78倍,所以在一维卷积上叠加两个k=3的卷积实际上在性能上会有所提升。
第二个卷积单元包括依次连接的两个卷积层,其卷积核k的大小分别为k=1,k=3。
第三个卷积单元包括一个卷积层,其卷积核k的大小为k=1。
最后的拼接层用于将三个卷积单元的输出结果进行拼接,得到表示矩阵gi,拼接公式为:
gi=ReLU(W[hi-k/2,...,hi+k/2]+b)
其中ReLU(·)表示Relu函数,W表示拼接权重矩阵,b表示拼接偏置向量。
本发明实施例使用了三层卷积神经网络,因此使用前面所提到的ReLU激活函数。卷积核的参数共享使模型能够提取某些类型的特征,特别是n-gram特征。
与图像相似,语言也包含局部相关性,例如短语结构的内部相关性。卷积神经网络可以提取句子中的这些共同特征,并指示原文中词与词之间的相关性。此外,为了进一步加强全局信息,本发明实施例采用自注意力机制来挖掘某个时间步的词表示与其它词表示的关系。因此,基于CNN和自注意力机制的信息选择门能够找出常见的n-gram特征和全局相关性。
S13、对表示矩阵gi进行自注意力机制计算,得到全局相关性表示矩阵g′i,计算公式为:
其中Attention(·)表示自注意力机制计算函数,Q,V均为卷积神经网络生成的表示矩阵gi,K=WattV,Watt为可学习矩阵,softmax(·)为softmax函数,dk表示卷积核k的表示维度。
对卷积神经网络CNN生成的表示矩阵gi进行自注意力机制计算,以便挖掘出全局相关性。自注意力机制激励模型学习长期相关性,并且不会产生太多计算复杂性,因此针对每个时间步的信息和全局信息之间的联系,实现了它的放缩点积注意力计算。
S14、采用信息选择门对LSTM输出串联结果hi和全局相关性表示矩阵g′i进行过滤计算,得到编码输出结果
本发明实施例中,信息选择门具体为:
其中σ(·)表示sigmoid函数。由于卷积神经网络CNN可以提取整个源文本的n-gram特征,并且自注意力机制学习输入文本之间的长期相关性,所以这个信息选择门可以对编码器的输出执行全局编码。基于CNN和自注意力机制的输出,sigmoid函数输出一个向量,这个向量的每个维度上的值都介于0和1之间,如果该值接近0,信息选择门将删除源表示的相应维度上的大部分信息,如果该值接近1,信息选择门将保留大部分信息,借此实现核心信息的选择。
本发明实施例中,信息选择门主要是通过卷积神经网络CNN和自注意力机制来对原文上下文执行全局编码。由于CNN的参数共享,信息选择门基于全局上下文来过滤每个编码器的输出,以便在考虑全局上下文的情况下重新定义每个时间步的表示,控制从编码阶段到解码阶段的信息流,以达到选择核心信息的作用。
S2、基于注意力机制和Maxout网络对编码输出结果进行解码,生成文本摘要。
如图4所示,步骤S2包括以下分步骤S21~S24:
S21、通过最后一个编码输出结果初始化LSTM网络的隐藏状态,并通过LSTM网络计算得到当前时间步长t的隐藏状态向量st,计算公式为:
st=LSTM(yt-1,ct-1,st-1)
其中LSTM(·)表示LSTM网络操作,yt-1表示前一个摘要词的词向量,ct-1表示前一个上下文向量,st-1表示前一个隐藏状态向量,初始隐藏状态向量s0为:
其中tanh(·)表示双曲正切函数,为最后一个编码输出结果,Wd表示可训练的隐藏状态权重矩阵,bd表示隐藏状态偏置向量。
S22、通过注意力机制计算当前时间步长t的上下文向量ct,计算公式为:
其中表示第i个编码输出结果,i=1,2,...,n,n为全局编码的上下文信息个数,at,i表示当前时间步长t第i个编码输入的注意力权重,其计算公式为:
其中exp(·)表示指数函数,et,i表示当前时间步长t隐藏状态向量st和编码输出结果的相似分数,其计算公式为:
其中st-1表示前一个隐藏状态向量,Wa为可训练的权重矩阵参数。
S23、根据隐藏状态向量st和上下文向量ct预测得到下一个摘要生成词。
本发明实施例中,通过Maxout网络进行下一个摘要生成词的预测。如图5所示,Maxout网络是一个简单的前馈架构,例如多层感知机或深度卷积神经网络,也可以将它看作是一种新型的激活函数:Maxout单元。
Maxout在网络中充当激活函数的作用,激活函数的一个特点是非线性,这样可以使网络逼近任意的函数,而Maxout是一个分段函数,每个激活函数都可以通过Maxout在局部空间内取最大值得到。因此,本发明实施例通过Maxout网络的特性进一步在解码阶段进行信息选择和噪音过滤。
如图6所示,步骤S23包括以下分步骤S231~S234:
S231、对前一个摘要词的词向量yt-1、当前上下文向量ct和隐藏状态向量st进行线性组合,得到读出状态向量rt
rt=Wryt-1+Urct+Vrst
其中Wr、Ur和Vr均为可训练的权重矩阵参数,读出状态向量rt为二维向量。
S232、将读出状态向量rt输入Maxout网络,对读出状态向量rt中每两个数字进行选取最大值操作,得到d维向量mt
其中rt,2j-1,rt,2j分别表示读出状态向量rt中的第2j-1个数字和第2j个数字。
S233、将向量mt输入softmax层进行词汇表中的单词条件概率计算,计算公式为:
p(yt|y1,...,yt-1)=softmax(Womt)
其中p(yt|y1,...,yt-1)表示当之前时刻生成摘要词的词向量分别为y1,...,yt-1时,当前时间步长t生成摘要词的词向量为yt的概率,softmax(·)为softmax函数,Wo为可训练的权重矩阵参数。
S234、选取单词条件概率最大的摘要词向量作为下一个摘要生成词。
S24、重复步骤S21~S23得到所有摘要生成词,将所有摘要生成词进行信息融合,并使用自然语言生成方法生成文本摘要。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种自动文本摘要方法,其特征在于,包括以下步骤:
S1、基于卷积神经网络和自注意力机制对文本信息的上下文进行全局编码,并采用信息选择门对全局编码结果进行过滤,得到编码输出结果;
S2、基于注意力机制和Maxout网络对编码输出结果进行解码,生成文本摘要。
2.根据权利要求1所述的自动文本摘要方法,其特征在于,所述步骤S1包括以下分步骤:
S11、采用双向LSTM网络得到两个方向的LSTM输出串联结果hi
S12、将LSTM输出串联结果hi输入卷积神经网络,得到表示矩阵gi
S13、对表示矩阵gi进行自注意力机制计算,得到全局相关性表示矩阵g′i
S14、采用信息选择门对LSTM输出串联结果hi和全局相关性表示矩阵g′i进行过滤计算,得到编码输出结果
3.根据权利要求2所述的自动文本摘要方法,其特征在于,所述步骤S11中两个方向的LSTM输出串联结果hi表示为:
其中表示采用LSTM网络得到的第i个上下文信息正向输出结果,表示采用LSTM网络得到的第i个上下文信息反向输出结果,i=1,2,...,n,n为全局编码的上下文信息个数。
4.根据权利要求2所述的自动文本摘要方法,其特征在于,所述步骤S12中的卷积神经网络包括并联的三个卷积单元和一个拼接层;
第一个卷积单元包括依次连接的三个卷积层,其卷积核k的大小分别为k=1,k=3,k=3;
第二个卷积单元包括依次连接的两个卷积层,其卷积核k的大小分别为k=1,k=3;
第三个卷积单元包括一个卷积层,其卷积核k的大小为k=1;
所述拼接层用于将三个卷积单元的输出结果进行拼接,得到表示矩阵gi,拼接公式为:
gi=ReLU(W[hi-k/2,...,hi+k/2]+b)
其中ReLU(·)表示ReLU函数,W表示拼接权重矩阵,b表示拼接偏置向量。
5.根据权利要求2所述的自动文本摘要方法,其特征在于,所述步骤S13中自注意力机制计算的计算公式为:
其中Attention(·)表示自注意力机制计算函数,Q,V均为卷积神经网络生成的表示矩阵gi,K=WattV,Watt为可学习矩阵,softmax(·)为softmax函数,dk表示卷积核k的表示维度。
6.根据权利要求2所述的自动文本摘要方法,其特征在于,所述步骤S14中的信息选择门具体为:
其中σ(·)表示sigmoid函数。
7.根据权利要求1所述的自动文本摘要方法,其特征在于,所述步骤S2包括以下分步骤:
S21、通过最后一个编码输出结果初始化LSTM网络的隐藏状态,并通过LSTM网络计算得到当前时间步长t的隐藏状态向量st
S22、通过注意力机制计算当前时间步长t的上下文向量ct
S23、根据隐藏状态向量st和上下文向量ct预测得到下一个摘要生成词;
S24、重复步骤S21~S23得到所有摘要生成词,将所有摘要生成词进行信息融合,并使用自然语言生成方法生成文本摘要。
8.根据权利要求7所述的自动文本摘要方法,其特征在于,所述步骤S21中隐藏状态向量st的计算公式为:
st=LSTM(yt-1,ct-1,st-1)
其中LSTM(·)表示LSTM网络操作,yt-1表示前一个摘要词的词向量,ct-1表示前一个上下文向量,st-1表示前一个隐藏状态向量,初始隐藏状态向量s0为:
其中tanh(·)表示双曲正切函数,为最后一个编码输出结果,Wd表示可训练的隐藏状态权重矩阵,bd表示隐藏状态偏置向量。
9.根据权利要求7所述的自动文本摘要方法,其特征在于,所述步骤S22中上下文向量ct的计算公式为:
其中表示第i个编码输出结果,i=1,2,...,n,n为全局编码的上下文信息个数,at,i表示当前时间步长t第i个编码输入的注意力权重,其计算公式为:
其中exp(·)表示指数函数,et,i表示当前时间步长t隐藏状态向量st和编码输出结果的相似分数,其计算公式为:
其中st-1表示前一个隐藏状态向量,Wa为可训练的权重矩阵参数。
10.根据权利要求7所述的自动文本摘要方法,其特征在于,所述步骤S23包括以下分步骤:
S231、对前一个摘要词的词向量yt-1、当前上下文向量ct和隐藏状态向量st进行线性组合,得到读出状态向量rt
rt=Wryt-1+Urct+Vrst
其中Wr、Ur和Vr均为可训练的权重矩阵参数;
S232、将读出状态向量rt输入Maxout网络,对读出状态向量rt中每两个数字进行选取最大值操作,得到d维向量mt
其中rt,2j-1,rt,2j分别表示读出状态向量rt中的第2j-1个数字和第2j个数字;
S233、将向量mt输入softmax层进行词汇表中的单词条件概率计算,计算公式为:
p(yt|y1,...,yt-1)=softmax(Womt)
其中p(yt|y1,...,yt-1)表示当之前时刻生成摘要词的词向量分别为y1,...,yt-1时,当前时间步长t生成摘要词的词向量为yt的概率,softmax(·)为softmax函数,Wo为可训练的权重矩阵参数;
S234、选取单词条件概率最大的摘要词向量作为下一个摘要生成词。
CN201910699308.2A 2019-07-31 2019-07-31 一种自动文本摘要方法 Active CN110390010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910699308.2A CN110390010B (zh) 2019-07-31 2019-07-31 一种自动文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910699308.2A CN110390010B (zh) 2019-07-31 2019-07-31 一种自动文本摘要方法

Publications (2)

Publication Number Publication Date
CN110390010A true CN110390010A (zh) 2019-10-29
CN110390010B CN110390010B (zh) 2022-10-18

Family

ID=68288022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910699308.2A Active CN110390010B (zh) 2019-07-31 2019-07-31 一种自动文本摘要方法

Country Status (1)

Country Link
CN (1) CN110390010B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079998A (zh) * 2019-12-03 2020-04-28 华东师范大学 基于长短时序相关性注意力机制模型的流量预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯读娟等: "《基于双编码器结构的文本自动摘要研究》", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079998A (zh) * 2019-12-03 2020-04-28 华东师范大学 基于长短时序相关性注意力机制模型的流量预测方法
CN111079998B (zh) * 2019-12-03 2020-12-01 华东师范大学 基于长短时序相关性注意力机制模型的流量预测方法

Also Published As

Publication number Publication date
CN110390010B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
Zhang et al. Deconvolutional paragraph representation learning
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112307208A (zh) 长文本的分类方法、终端及计算机存储介质
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN111813913A (zh) 以问题为导向的两阶段问题生成系统
CN114428850B (zh) 一种文本检索匹配方法和系统
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
WO2023231513A1 (zh) 对话内容的生成方法及装置、存储介质、终端
CN114238652A (zh) 一种用于端到端场景的工业故障知识图谱建立方法
Mathur et al. A scaled‐down neural conversational model for chatbots
CN110390010A (zh) 一种自动文本摘要方法
CN114399646B (zh) 一种基于Transformer结构的图像描述方法和装置
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
Jiang et al. A BERT-Bi-LSTM-Based knowledge graph question answering method
CN115545038A (zh) 一种优化网格标签的方面情感分析方法
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
CN115221315A (zh) 文本处理方法以及装置、句向量模型训练方法以及装置
Heidari et al. Diverse and styled image captioning using singular value decomposition‐based mixture of recurrent experts
CN113641789A (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
CN113743095A (zh) 基于词格和相对位置嵌入的中文问题生成统一预训练方法
US11914635B2 (en) Performing image search based on user input using neural networks
US20240153259A1 (en) Single image concept encoder for personalization using a pretrained diffusion model
Dasgupta et al. A Review of Generative AI from Historical Perspectives
Maqsood Evaluating NewsQA Dataset With ALBERT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant