CN112560456A - 一种基于改进神经网络的生成式摘要生成方法和系统 - Google Patents
一种基于改进神经网络的生成式摘要生成方法和系统 Download PDFInfo
- Publication number
- CN112560456A CN112560456A CN202011208470.9A CN202011208470A CN112560456A CN 112560456 A CN112560456 A CN 112560456A CN 202011208470 A CN202011208470 A CN 202011208470A CN 112560456 A CN112560456 A CN 112560456A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- neural network
- vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 94
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 230000002457 bidirectional effect Effects 0.000 claims description 17
- 238000005192 partition Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 241001131927 Placea Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明涉及自然语言处理技术领域,具体涉及一种基于改进神经网络的生成式摘要生成方法和系统,包括:将文本分词化、分区处理并转换成独热编码向量;对独热编码向量进行词编码处理,得到训练参数矩阵和具有高表征的词编码;引入上下文矩阵与词编码做softmax操作,得到词注意力矩阵,将词注意力矩阵和隐藏层的结果做点积并加权,得到句向量;对句向量进行句编码处理,得到具有高表征的句编码;引入随机的句注意力矩阵与句编码做softmax操作,生成文档向量;将文本向量作为解码器的初始化参数输入解码器进行解码操作,生成文本摘要。本发明提高了模型的关注颗粒度,能够更为精准的捕获到文章中的关键信息,提高了生成摘要的精确性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于改进神经网络的生 成式摘要生成方法和系统。
背景技术
互联网中存在大量的文本数据如新闻、博客充斥着我们的生活。然而这些 文本数据中往往存在冗余无用的信息,通过简短的摘要,我们可以高效地检索 文本内容,挖掘文本信息。但是人工为每篇文章、新闻、博客撰写摘要需要耗 费大量的人力及物力资源。
自然语言处理是数据处理领域中较为活跃的处理方法,也是进行舆情分析、 数据挖掘的重要步骤。文本摘要是自然语言处理中一个重要的领域方向,包括 抽取式文本摘要和生成式文本摘要。抽取式文本摘要是抽取出原文中最重要的 句子作为摘要,而生成式文本摘要根据文本的内容自动的生成摘要句子。文本 摘要可以将一篇中长的文本用一句话概括摘要,比起人工文本摘要可以大大提 高效率。但是其准确性特别是在关键语句和关键词语的捕捉上准确性依然比较 低。
传统的编码器-解码器模型首先对文本的词语做编码,随后加入注意力机制 学习文章的关键信息,之后再对词编码进行解码生成文本摘要。此类方法的注 意力机制的颗粒度较为粗糙,对于长文本的学习不能达到很好的注意效果,从 而很难捕捉到一篇中长文本中的关键语句和关键词语,造成生成的摘要的准确 性有较大的偏差。文本中由于文本长度过长,且涉及的人物关系复杂,传统的 编码器-解码器模型在关键词语和语句捕捉上会产生较大的偏差。原因是尽管它 引入了注意力机制但是传统的模型对整个文本序列做处理,尽管使用了时序型 神经网络但是对于一篇很长的文本向量序列依然会发生梯度弥散或是导数计算 偏差,在产生偏差的基础上再引入注意力矩阵,则是在偏差的基础上再次得到更大误差的结果从而导致最终生成的摘要也产生较大偏差。
发明内容
本发明所要解决的技术问题是:现有的生成式文本摘要技术中,在实现自 动文本摘要的生成时,由于传统的基于注意力机制的编码器-解码器模型带来的 关键句子和词语捕捉不精确而造成的摘要准确性低的问题,本发明基于文档的 结构特性提供一种基于改进神经网络的生成式摘要生成方法和系统,对神经网 络和注意力分层,将编码器分为词编码层级和句编码层级,更加符合文档的结 构,在每个层级分别引入注意力机制,这样做减小了反向传播求导中的误差并 提高了注意力机制的关注颗粒度,使之能够更为精准的捕获到文章中的关键信 息,从而提高最终生成文本摘要的精确度。
一种基于改进神经网络的生成式摘要生成方法,包括以下步骤:
S1、将文本分词化,并做分区处理,得到多个处理单元,将每个处理单元 中的每个词语转换成独热编码one-hot向量的嵌入式表示,记为wij,并将独热 编码one-hot向量wij输入到词编码层,其中i表示第i句话,j表示第i句话中 的第j个词语;
S2、词编码层将每一个句子作为一个处理单元,利用双向长短记忆型神经 网络及其变种对独热编码one-hot向量wij进行词编码操作,得到训练参数矩阵 和具有高表征的词编码;其中训练参数矩阵是神经网络模型训练过程中附带的 产物,用于自适应的调整模型误差;
S3、引入一个随机的上下文矩阵uw,将uw与词编码做softmax操作,得到 词注意力矩阵,将词注意力矩阵和隐藏层的结果做点积并加权,得到一个具有 高表征特性的句向量SL,L表示第L个分区,将句向量SL输入到句编码层;
S4、句编码层利用双向长短记忆型神经网络及其变种对句向量SL进行句编 码处理,得到具有高表征的句编码;
S5、引入随机的句注意力矩阵,将句注意力矩阵与得到的句编码做softmax 操作,生成具有高表征特性的文档向量T;
S6、将文本向量T作为解码器的初始化参数输入解码器进行解码操作,生 成文本摘要。
进一步的,步骤S6中的所述解码操作包括如下过程:
S61:将文本向量T作为解码器的初始化参数输入解码器,并将标签begin 作为输入参数传递到初始化后的解码器;
S62:初始化后的解码器模块运行一次时间步time step,并采用softmax计 算出下一个概率最大的单词并输出;
S63:将上一时刻输出的单词做为解码器模块的输入,计算反向传播过程的 误差值,神经网络会根据训练参数矩阵和反向传播过程的误差值自适应的更新 神经网络权重参数;再运行一次time stpe,并根据softmax计算出下一个概率最 大的单词并输出;
S64:重复S63的过程,当解码到END标签时,结束上述S63的迭代过程, 得到文本摘要。
进一步的,双向长短记忆型神经网络及其变种包括RNN神经网络、LSTM 神经网络、GRU神经网络或其他神经网络中的任意一种或多种的组合。
一种基于改进神经网络的生成式摘要生成系统,包括:词嵌入模块、词编 码模块、句编码模块和解码器模块,词嵌入模块用于将文本分词化并转化为独 热编码one-hot向量,同时做分区处理,所述分区处理包括:将处理单元按句划 分,一个句子中的词的集合作为一个独立的处理单元,句与句在该阶段是相互 独立的;词编译模块利用双向长短记忆型神经网络及其变种对one-hot向量进行 词编码处理,得到训练参数矩阵和和具有高表征的词编码,加入词注意力矩阵 与词编码做点积,得到句向量;句编译模块利用双向长短记忆型神经网络及其 变种对句向量进行句编码处理,得到训练参数矩阵和具有高表征的句编码,并 加入词注意力矩阵与句编码做点积得到文本向量;解码器模块对文本向量进行 解码操作。
进一步的,解码器模块的解码操作包括:将文本向量作为初始参数输入解 码器模块并初始化解码器模块,将BEGIN标签输入初始化后的解码器模块,初 始化后的解码器模块运行一个时间步,接着采用softmax计算下一个要输出的单 词的概率,输出最大概率的单词;将输出的最大概率的单词作为下一个时序的 输入,并通过当前状态更新神经网络的权重参数,再通过softmax计算得出下一 个时序输出的最大概率的单词,……,以此类推,直至输出END标签,最终生 成完整的文本摘要。
本发明的有益效果:
通过对神经网络的结构与文档结构类比,将原本的编码器-解码器模型分成 了词编码层级和句编码层级的自下向上模型,缩短了每个处理单元的输入序列 的长度,从而缓解了由于序列过长导致反向传播中求导误差较大的问题;并在 每个层级分别引入注意力机制,提高了模型的关注颗粒度,使之能够更为精准 的捕获到文章中的关键信息,提高了生成摘要的精确性。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明,附图仅用于 示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中, 用相同的参考符号表示相同的部件。
图1是本发明实施例的整体流程结构示意图;
图2是本发明实施例的一种基于文档结构神经网络模型图;
图3是本发明实施例的解码器模块流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面通过 参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发 明的限制。
需要说明的是,自然语言处理是计算机科学领域与人工智能领域中的一个 重要方向,主要涉及实现人与计算机之间用自然语言进行有效通信的各种理论 和方法,从微博或微信中获取文本数据的方法可以使用爬虫方法,或者其他的 获取数据的软件程序等,本发明实施例不做具体限定。
文档的结构具有以下特性:句子由单词组成,文档由句子组成。
传统的基于注意力机制的编码器-解码器模型首先对文本的词语做编码,随 后加入注意力机制学习文章的关键信息,之后再对词编码进行解码生成文本摘 要。此类方法的注意力机制的颗粒度较为粗糙,对于长文本的学习不能达到很 好的注意效果,从而很难捕捉到中长文本中的关键语句和关键词语,生成的摘 要的准确性有较大的偏差。尽管它引入了注意力机制但是传统的模型对整个文 本序列做处理,并且使用了时序型神经网络但是对于一篇很长的文本向量序列, 由于序列过长导致反向传播中求导时依然会发生梯度弥散或是计算偏差,在产 生偏差的基础上再引入注意力矩阵,则是在偏差的基础上再次得到更大误差的 结果从而导致最终生成的摘要也产生较大偏差。
在基于注意力机制的编码器-解码器模型基础上,本发明考虑到文档的结构 特性构建一种自下而上的层次结构,提供一种基于文档结构的神经网络改进模 型,改进之处主要包括:对神经网络和注意力分层,将神经网络进行层级划分, 将编码器划分为词编码层和句编码层,分别在词编码层和句编码层加上注意力 机制,这种多注意力机制使注意力机制颗粒度更细,使整个模型能够更好的理 解文本含义,提高生成式文本摘要的准确性。
如图2所示的是一个完整的基于文档结构的神经网络结构模型,分为词嵌 入层、词编码层、句编码层和解码层。图中最底层是词嵌入层,每一个虚线框 都是一个分区,代表这个分区里处理的是同一个句子里的词向量。词嵌入层上 方紧接着是词编码层,是一个双向的时序神经网络结构,处理完成后转换成了 句向量,之后再经过句编码层,通过一个双向时序神经网络生成文本向量,最 后对其解码,生成摘要。其中在词编码层和句编码层都加入了注意力机制,可 以是单注意力机制,也可以是多注意力机制。
图2中的圆圈代表的是词向量,句向量和文本向量。
图2中的长方体代表的是神经网络结构或者是输入输出。
start,y1,y2,end是输入,长方体中标有GRU的是神经网络。
start标签是解码阶段的输入变迁,y1,y2,…是解码阶段的输出,所有的y的 集合就是最终输出的摘要,end标签是结束标签。
w表示每个单词的one-hot向量,w11,w12,w13..表示第一个句子的第一 个单词的one-hot向量,第二个单词one-hot向量……w21就表示第二个句子的 第一个单词的one-hot向量……;
s1,s2,…sn表示的是经过词编码器之后生成的句向量。
h表示隐藏层的向量,也就是计算到某一个节点时该节点的状态向量。
uw和us分别表示词上下文矩阵和句上下文矩阵,他们的初始值都是随机生 成的,用于注意力机制矩阵的计算。
GRU是一种特殊的时序型神经网络结构,GRU神经网络的特性是具有更新 门和重置门,它是一种长短记忆型神经网络的变种。图中的GRU神经网络也可 以被其他的神经网络代替。
本发明的一种基于改进神经网络的生成式摘要生成方法的主要思想大致可 分为三步:
1.文本转化:首先将文本的每一个句子组成一个单元,每一个词语转化为独 热编码one-hot向量。
2.编码操作:接着利用双向长短记忆型神经网络及其变种对one-hot向量进 行编码操作,在神经网络的最后一层加入注意力矩阵,将神经网络输出的权重 与一个随机的上下文矩阵做softmax得到一个注意力矩阵,之后将注意力矩阵和 隐藏层的结果做点积并加权,最终得到每一个句子的具有较强表征性的句向量。 接着开始句层面编码,同理利用双向长短记忆型神经网络及其变种对每一个得 到的句向量再进行编码,同时引入随机注意力矩阵,最终得到一个具有较强表 征性的文本向量。
3.解码操作:最后对文本向量做解码操作,将上述训练过程中得到的最后一 个参数权重结果作为输入传递给解码器,利用softmax计算出每一个概率最大的 词语输出,从而输出最大概率的摘要信息。
图1是本发明的整体流程结构示意图。一种基于文档结构神经网络的文本 摘要生成方法,包括但不限于以下步骤:
S1:在词嵌入层将文本分词化,并做分区处理,得到多个处理单元,将每 个处理单元中的每个词语转换成独热编码one-hot向量的嵌入式表示,记为wij, 并将得到独热编码one-hot向量wij输入到词编码层,其中i表示第i句话,j表 示第i句话中的第j个词语。所述分区处理包括:将处理单元按句划分,一个句 子中的词的集合作为一个独立的处理单元。
S2:在词编码层中,将每一个句子作为一个处理单元,对独热编码one-hot 向量wij进行词编码操作。利用双向长短记忆型神经网络及其变种对one-hot向量 wij进行词编码处理,得到训练参数矩阵和具有高表征的词编码。其中训练参数 矩阵是所述神经网络模型训练过程中附带的产物,用于自适应的调整模型误差。
S3:引入一个随机的上下文矩阵uw,将uw与上述得到的词编码做softmax 操作,得到词注意力矩阵,之后将词注意力矩阵和隐藏层的结果做点积并加权, 得到一个具有高表征特性的句向量SL,L表示第几个句向量。
S4:对上述所得的每一个句向量输入到句编码层中,利用双向长短记忆型神 经网络及其变种对其进行句编码处理,得到具有高表征的句编码。
S5:引入随机的句注意力矩阵,将句注意力矩阵与上述所得到的句编码做softmax操作,生成具有高表征特性的文档向量T。
S6:将上述编码过程的最后一个状态即最后生成的文本向量T作为解码器的 初始化参数输入解码器进行解码操作,生成文本摘要。
进一步的,在一些实施例中,步骤S6中的所述解码操作包括如下过程:
S61:将文本向量T作为解码器的初始化参数输入解码器,并将标签begin 作为输入参数传递到初始化后的解码器。
S62:初始化后的解码器模块运行一次time step,并采用softmax计算出下一 个概率最大的单词并输出。
S63:将上一时刻输出的单词做为输入,同时神经网络会根据基于训练参数 矩阵和反向传播过程的误差值自适应的更新神经网络权重参数。再运行一次time stpe,并根据softmax计算出下一个概率最大的单词并输出。
S64:重复S63的过程,当解码到END标签时,结束上述S63的迭代过程, 最终得到文本的摘要。
在一些实施例中,双向长短记忆性神经网络及其变种可以是LSTM神经网 络,也可以是GRU神经网络,但不限于此。
本发明还提供一种基于改进神经网络的生成式摘要生成系统,如图2所示 为基于文档结构神经网络的文本摘要生成系统结构图,本发明提出的系统整体 框架主要分为四个模块:包括词嵌入模块、词编码模块、句编码模块和解码器 模块。
词嵌入模块用于将文本分词化,并将文本的单个分词转化为独热编码 one-hot向量,同时做分区处理,将处理单元按句划分,一个句子中的词的集合 作为一个独立的处理单元,句与句在该阶段是相互独立的,便于后续的处理。
词编译模块利用双向长短记忆型神经网络及其变种对one-hot向量进行词编 码处理,得到训练参数矩阵和和具有高表征的词编码,并加入词注意力矩阵与 词编码做点积得到句向量。
句编译模块利用双向长短记忆型神经网络及其变种对上述所得句向量进行 句编码处理,得到训练参数矩阵和具有高表征的句编码,并加入词注意力矩阵 与句编码做点积得到文本向量。
解码器模块对所得文本向量进行解码操作,将上述所得文本向量和BEGIN 标签作为输入输入解码器模块,接着会做一次softmax计算得出下一个要输出的 单词的概率,输出最大概率的单词。而这个预测的单词将会在下一个时序作为 输入,并通过当前状态更新神经网络的权重参数,再通过softmax计算得出下一 个时序输出最大概率的单词……以此类推,最终生成完整的文本摘要。
所述双向长短记忆型神经网络及其变种包括RNN神经网络、LSTM神经网 络、GRU神经网络或其他神经网络中的任意一种或多种的组合,只要符合本发 明方法和系统的所述的文档结构神经网络模型均可以使用,本说明书不限制具 体使用哪一种神经网络模型。
当系统工作时,首先词嵌入模块对输入的样本数据进行分词处理,并进行 分区处理,将每一个句子中的词的集合分为一个处理单元,得到每个处理单元 的原始单词序列(x11,x12,…,x1n,x21,x22,…,x2n,…,xnn),其中xij表示第i句的第j个单词。 接着将每个处理单元中的每个词语转化独热编码one-hot向量的嵌入式表示, (w11,w12,…,w1n,w21,w22,…,w2n,…,wnn),记为wij,wij表示第i句的第j个单词的 one-hot向量。
然后,将独热编码one-hot向量wij作为词编码模块的输入。需要注意的是, 在词编码模块中,每一个分区作为独立的模块进行处理,即此时句与句之间不 存在关系,仅考虑每个句子内部单词的关系。词编码模块的神经网络结构是一 种基于时序的结构模型,此处选用GRU神经网络作为词编码模块的网络结构, 但不仅限于此。GRU是一种特殊的时序型神经网络结构,GRU神经网络的特性 是具有更新门和重置门,它是一种长短记忆型神经网络的变种。更新门用于控 制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一 时刻的状态信息带入当前状态的越多;重置门用于控制当前状态忽略前一时刻 的状态信息的程度,重置门的值越小说明忽略得越多。利用这一特性可以解决 长文本序列在神经网络训练过程的梯度弥散问题。经过双向GRU模型可映射得 到每个单词的新的词向量:uij,该uij为具有高表征的词编码。同时,双向GRU 将前向和后向的状态进行拼接h=(hforward,hbackward),其中,h表示经过前后向 传播后隐藏层的状态向量,hforward表示隐藏层前向传播的状态向量,hbackward表示 隐藏层后向传播的状态向量。然后,对词上下文矩阵uw随机初始化,根据公式 求出词注意力矩阵其中L表示第L个分区。接着将词 注意力矩阵与隐藏层的值h做加权点积,得到句向量SL。
接着,将每一个得到的句向量SL作为句编码模块的输入,使用双向GRU 对句向量进行句编码,并得到前向和后向的状态拼接h=(hforward,hbackward)。然 后,对句上下文矩阵uS初始化,根据公式求出句注意力矩 阵其中S表示范围是整个文本。接着将句注意力矩阵与隐藏层的值h做 加权点积得到最终的文本向量T。
进一步的,词上下文矩阵和句上下文矩阵均通过网络在训练过程中得到。
将最终的文本向量T作为解码器的初始化参数输入解码器模块进行解码操 作,解码器模块的具体流程图如图3所示,其具体流程包括:将句编码模块生 成的文本向量T作为输入来初始化解码器模块,并将BEGIN标签作为输入传递 给初始化之后的的解码器。初始化之后的解码器模块运行一次time step,计算出 下一个时序每个单词的概率,选择最大概率的单词输出。time steps就是循环神 经网络认为每个输入数据与前多少个陆续输入的数据有联系。例如具有这样一 段序列数据“…ABCDBCEDF…”,当time steps为3时,在模型预测中如果输 入数据为“D”,那么之前接收的数据如果为“B”和“C”则此时的预测输出为B的概率更大,之前接收的数据如果为“C”和“E”,则此时的预测输出为F的 概率更大。将输出的最大概率的单词作为下一个时序step的输入,并通过当前 状态更新内部的参数,输出下一个时序step中概率最大的单词。重复上述的过 程,直至输出END标签,最终得到的结果就是文本的生成式摘要。
在一些实施例中,词编码层和句编码层引入的注意力机制可以是单一注意 力机制,也可以是多注意力机制。由于词编码层的注意力机制引入方法和句编 码层相同,这里仅以词编码层模块举例说明注意力机制的引入方法:
多注意力机制是随机初始化n个上下文矩阵uwk,根据公式计算出单个注意 力矩阵再对其所有的注意力矩阵做加权得到最终的注 意力矩阵其中,uwk表示第k个随机初始化得到的上下文 矩阵向量,k∈(1,n),n的选取取决于计算单元的节点数,最大不能超过计算单元 节点的数量,最佳的n选取数量可由公式n=Nnode*Uuse*(1+W/C)计算得出,其 中W/C为空闲时间与计算时间的比值,Nnode为节点数量,Uuse为所有节点的使 用率。即节点空闲时间所占比例越高,n可以设置的更大;节点计算时间所占比 例越高,则需要降低n,但是n的总数不能超过总节点数N。采用多注意力矩 阵替换单一的注意力矩阵,可以对单一的矩阵的注意力效果进行叠加,强化注意力的关注效果。
本发明通过对神经网络的结构与文档结构类比,将原本的编码器-解码器模 型分成了词编码层级和句编码层级的自下向上模型,缩短了每个处理单元的输 入序列的长度,从而缓解了由于序列过长导致反向传播中求导误差较大的问题; 并在每个层级分别引入注意力机制,提高了模型的关注颗粒度,使之能够更为 精准的捕获到文章中的关键信息,提高了生成摘要的精确性。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全 部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序 可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法 实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。 尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较 简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅 仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不 是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元 和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动 的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术 人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例 进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物 限定。
Claims (5)
1.一种基于改进神经网络的生成式摘要生成方法,其特征在于,包括以下步骤:
S1、将文本分词化,并做分区处理,得到多个处理单元,将每个处理单元中的每个词语转换成独热编码one-hot向量的嵌入式表示,记为wij,并将独热编码one-hot向量wij输入到词编码层,其中i表示第i句话,j表示第i句话中的第j个词语;
S2、词编码层将每一个句子作为一个处理单元,利用双向长短记忆型神经网络及其变种对独热编码one-hot向量wij进行词编码操作,得到训练参数矩阵和具有高表征的词编码;其中训练参数矩阵是神经网络模型训练过程中附带的产物,用于自适应的调整模型误差;
S3、引入一个随机的上下文矩阵uw,将uw与词编码做softmax操作,得到词注意力矩阵,将词注意力矩阵和隐藏层的结果做点积并加权,得到一个具有高表征特性的句向量SL,L表示第L个分区,将句向量SL输入到句编码层;
S4、句编码层利用双向长短记忆型神经网络及其变种对句向量SL进行句编码处理,得到具有高表征的句编码;
S5、引入随机的句注意力矩阵,将句注意力矩阵与得到的句编码做softmax操作,生成具有高表征特性的文档向量T;
S6、将文本向量T作为解码器的初始化参数输入解码器进行解码操作,生成文本摘要。
2.根据权利要求1所述的一种基于改进神经网络的生成式摘要生成方法,其特征在于,步骤S6中的所述解码操作包括如下过程:
S61:将文本向量T作为解码器的初始化参数输入解码器,并将标签begin作为输入参数传递到初始化后的解码器;
S62:初始化后的解码器模块运行一次时间步time step,并采用softmax计算出下一个概率最大的单词并输出;
S63:将上一时刻输出的单词做为解码器模块的输入,计算反向传播过程的误差值,神经网络会根据训练参数矩阵和反向传播过程的误差值自适应的更新神经网络权重参数;再运行一次time stpe,并根据softmax计算出下一个概率最大的单词并输出;
S64:重复S63的过程,当解码到END标签时,结束上述S63的迭代过程,得到文本摘要。
3.根据权利要求1所述的一种基于改进神经网络的生成式摘要生成方法,其特征在于,双向长短记忆型神经网络及其变种包括RNN神经网络、LSTM神经网络、GRU神经网络或其他神经网络中的任意一种或多种的组合。
4.一种基于改进神经网络的生成式摘要生成系统,其特征在于,包括:词嵌入模块、词编码模块、句编码模块和解码器模块,
词嵌入模块用于将文本分词化并转化为独热编码one-hot向量,同时做分区处理,所述分区处理包括:将处理单元按句划分,一个句子中的词的集合作为一个独立的处理单元,句与句在该阶段是相互独立的;
词编译模块利用双向长短记忆型神经网络及其变种对one-hot向量进行词编码处理,得到训练参数矩阵和和具有高表征的词编码,加入词注意力矩阵与词编码做点积,得到句向量;
句编译模块利用双向长短记忆型神经网络及其变种对句向量进行句编码处理,得到训练参数矩阵和具有高表征的句编码,并加入词注意力矩阵与句编码做点积得到文本向量;
解码器模块对文本向量进行解码操作。
5.根据权利要求4所述的一种基于改进神经网络的生成式摘要生成系统,其特征在于,解码器模块的解码操作包括:将文本向量作为初始参数输入解码器模块并初始化解码器模块,将BEGIN标签输入初始化后的解码器模块,初始化后的解码器模块运行一个时间步,接着采用softmax计算下一个要输出的单词的概率,输出最大概率的单词;将输出的最大概率的单词作为下一个时序的输入,并通过当前状态更新神经网络的权重参数,再通过softmax计算得出下一个时序输出的最大概率的单词,……,以此类推,直至输出END标签,最终生成完整的文本摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208470.9A CN112560456B (zh) | 2020-11-03 | 2020-11-03 | 一种基于改进神经网络的生成式摘要生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208470.9A CN112560456B (zh) | 2020-11-03 | 2020-11-03 | 一种基于改进神经网络的生成式摘要生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560456A true CN112560456A (zh) | 2021-03-26 |
CN112560456B CN112560456B (zh) | 2024-04-09 |
Family
ID=75041924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011208470.9A Active CN112560456B (zh) | 2020-11-03 | 2020-11-03 | 一种基于改进神经网络的生成式摘要生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560456B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906385A (zh) * | 2021-05-06 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、计算机设备及存储介质 |
CN113590758A (zh) * | 2021-08-05 | 2021-11-02 | 中国科学院深圳先进技术研究院 | 文本摘要生成系统 |
CN113626584A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种自动文本摘要生成方法、系统、计算机设备和存储介质 |
CN115496061A (zh) * | 2022-09-30 | 2022-12-20 | 内蒙古财经大学 | 一种神经网络标题生成模型 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427771A (zh) * | 2018-04-09 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
JP2019061656A (ja) * | 2017-09-27 | 2019-04-18 | 株式会社リコー | 要約文自動生成方法、装置及び電子デバイス |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
WO2019169992A1 (zh) * | 2018-03-08 | 2019-09-12 | 腾讯科技(深圳)有限公司 | 文本信息生成方法、装置、存储介质及设备 |
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、系统及存储介质 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
-
2020
- 2020-11-03 CN CN202011208470.9A patent/CN112560456B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019061656A (ja) * | 2017-09-27 | 2019-04-18 | 株式会社リコー | 要約文自動生成方法、装置及び電子デバイス |
WO2019169992A1 (zh) * | 2018-03-08 | 2019-09-12 | 腾讯科技(深圳)有限公司 | 文本信息生成方法、装置、存储介质及设备 |
CN108427771A (zh) * | 2018-04-09 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、系统及存储介质 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
张迎;张宜飞;王中卿;王红玲;: "基于主次关系特征的自动文摘方法", 计算机科学, no. 1, 15 June 2020 (2020-06-15) * |
杨丹浩;吴岳辛;范春晓;: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, no. 01, 15 January 2020 (2020-01-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906385A (zh) * | 2021-05-06 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、计算机设备及存储介质 |
CN113590758A (zh) * | 2021-08-05 | 2021-11-02 | 中国科学院深圳先进技术研究院 | 文本摘要生成系统 |
CN113626584A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种自动文本摘要生成方法、系统、计算机设备和存储介质 |
CN115496061A (zh) * | 2022-09-30 | 2022-12-20 | 内蒙古财经大学 | 一种神经网络标题生成模型 |
Also Published As
Publication number | Publication date |
---|---|
CN112560456B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN112214604A (zh) | 文本分类模型的训练方法、文本分类方法、装置及设备 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN112348911B (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN116681810B (zh) | 虚拟对象动作生成方法、装置、计算机设备和存储介质 | |
CN113312919A (zh) | 一种知识图谱的文本生成方法及装置 | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN111723194A (zh) | 摘要生成方法、装置和设备 | |
CN112132075B (zh) | 图文内容处理方法及介质 | |
CN111723186A (zh) | 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 | |
CN116663523A (zh) | 多角度增强网络的语义文本相似度计算方法 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN109902273A (zh) | 关键词生成模型的建模方法和装置 | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
CN112434143B (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
CN115310445A (zh) | 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统 | |
CN111126047B (zh) | 一种同义文本生成的方法及装置 | |
CN113486180A (zh) | 一种基于关系层级交互的远程监督关系抽取方法及系统 | |
CN114328910A (zh) | 文本聚类方法以及相关装置 | |
CN113420869A (zh) | 基于全方向注意力的翻译方法及其相关设备 | |
CN113177393A (zh) | 改进针对网页结构理解的预训练语言模型的方法和装置 | |
Bin et al. | Non-autoregressive sentence ordering | |
CN114238579B (zh) | 文本分析方法、装置、介质和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |