CN110287490A - 一种突显核心内容的文本自动摘要方法 - Google Patents
一种突显核心内容的文本自动摘要方法 Download PDFInfo
- Publication number
- CN110287490A CN110287490A CN201910552023.6A CN201910552023A CN110287490A CN 110287490 A CN110287490 A CN 110287490A CN 201910552023 A CN201910552023 A CN 201910552023A CN 110287490 A CN110287490 A CN 110287490A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- word
- state vector
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 181
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 230000007787 long-term memory Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000008309 brain mechanism Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种突显核心内容的文本自动摘要方法,包括如下步骤:(一)将数据集中的文本合并成一个文档,进行分词处理,生成词汇表;(二)进行关键信息获取;(三)进行双注意指针网络摘要生成。本发明可以有效地避免会偏离核心内容的问题,得到更好的生成效果,得到原始文本的最终摘要,准确地减少重复的出现,具有良好的可读性。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种突显核心内容的文本自动摘要方法。
背景技术
文本自动摘要是为了顺应信息化时代的发展而演变出的一种技术。信息爆炸导致了文本的飞速增加,现在我们需要对海量数据内容进行提炼与总结,以简洁、直观的摘要来概括用户所关注的主要内容,方便用户快速了解与浏览。文本摘要是文档内容的精髓缩影,是提高用户查找与阅读理解效率的重要工具,但传统摘要由人工产生,成本过高且效率低地下,由此自动文本摘要技术应运而生。
现有的文本摘要技术主要分为两类,一类是抽取式,一类是生成式。其中抽取式通过对文档中重要信息的提取来组成摘要,生成式则是通过重写内容来形成摘要。抽取式的方法更多地依靠源文本进行选择,其主要任务就变成了找到文本中重要的几句话进行排列组合。然而更多的时候是摘要的生成需要以人的理解的方式来生成原创的句子。
深度学习的出现,它模仿人脑的机制来解释数据特点使得生成式摘要得到长足的发展。文字是一串单词序列,具有时间上的信息。因此使用循环神经网络(RecurrentNeural Network,RNN)这种能够执行序列数据的计算的神经网络作为自然语言处理任务的标准方法。生成式摘要也使用循环神经网络作为基础,同时引入序列到序列模型(Sequence-to-Sequence,Seq2Seq)的解决了文本与摘要间的序列不统一问题。随后又融入了注意力机制(Attention Mechanism)来突显上下文语义,最后生成的摘要比之前非神经网络的模型效果好,能很好地概括源文本的内容。
但是目前技术生成出来的摘要很容易出现信息冗余和总结出非关键信息等缺点。具有注意力的序列到序列模型会不准确的产生事实类细节,特别是对于词汇集之外词(OutOf Vocabulary,OOV)来说。并且模型有时候没有去聚焦于源文本的核心内容,反而概括一些不太重要的信息。同时,由于注意力机制的引入,生成摘要时容易出现重复问题。如何在生成文本摘要中概括其信息的同时又不缺失关键信息,并准确地减少重复的出现,是一个十分值得研究的问题。
发明内容
针对现有技术的不足,本发明所解决的问题是如何在生成文本摘要中概括其信息的同时又不缺失关键信息,并准确地减少重复的出现。
为解决上述技术问题,本发明采用的技术方案是一种突显核心内容的文本自动摘要方法,包括如下步骤:
(一)将数据集中的文本合并成一个文档,进行分词处理,生成词汇表;
(二)进行关键信息获取,具体分步骤如下:
(1)对数据集中的单个文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;
(2)将得到的每个文本的全部词向量按顺序输入一个由双向的循环神经网络构成的编码器,得到输入每个词后的文本状态向量;其中,最后一个状态向量代表该文本的状态向量;
所述文本的状态向量包括:将第i个所述词向量和第i-1所述词向量对应文本的状态向量输入到第i个循环神经网络模块中,经过第i个循环神经网络模块处理得到输入第i个词向量后文本的状态向量。
所述循环神经网络为LSTM是长短期记忆网络,虽然结构相同,但是参数不同。
(3)利用自注意机制将编码器的状态向量互相匹配,求得各个状态向量的注意力分布,以分配不同的焦点权重;将得到的权重对状态向量进行加权和计算,得到关键信息向量;
(三)进行双注意指针网络摘要生成,具体分步骤如下:
(1)将所述输入文本的状态向量输入一个由单向的循环神经网络构成的解码器进行解码,得到摘要文档的第一个状态向量;
所述循环神经网络为LSTM是长短期记忆网络,虽然结构相同,但是参数不同。
(2)将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算,得到原始文本所有单词的软注意力分布,以分配不同的焦点权重;所述覆盖向量来自解码器先前的状态向量对应的所有注意力权重的总和,如果是第一个状态向量,则覆盖向量为0。
(3)将得到的权重对编码器的状态向量进行加权和计算,得到上下文信息向量;
(4)将上下文信息向量和所述的关键信息向量通过门机制进行融合,得到混合信息向量;
(5)将混合信息向量与摘要文档的第一个状态向量进行拼接,做两层线性变换,得到一个词汇表长度大小的一维向量;
(6)将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展,获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率,选择其中概率最高的词作为所得摘要的第一个生成词;所述指针网络是将软注意力分布的权重作为指向输入单词的指针,不考虑输入元素,而是以概率的值作为指针指向输入元素的位置。
(7)将得到的所述第一个生成词和得到的摘要文档的第一个状态向量输入到解码器中,重复分步骤(1)到分步骤(6),得到摘要的第二个生成词和摘要文档的第二个状态向量;将得到的新单词和得到该新的摘要文档的状态向量循环输入到上述的重复步骤中,直到摘要生成完毕。
与现有技术相比,本发明有益效果:
(1)添加了关键信息,通过使用自注意机制让编码器中的文本状态向量同自身匹配,动态地搜集文本中关键信息,最后生成的摘要可以有效地避免会偏离核心内容的问题;
(2)构建双注意指针网络,利用门机制进行混合摘要生成,得到从不同的方向生成的摘要。自注意机制得到文中的关键信息,软注意机制得到上下文语义信息,指针网络能获得词汇表之外词成为摘要信息的概率,通过两个门机制对这3种信息进行融合,得到更好的生成效果。
(3)针对最后生成的摘要存在的重复问题,用于通过覆盖率机制中的覆盖向量对重复的摘要进行抑制,以得到所述原始文本的最终摘要,准确地减少重复的出现,具有良好的可读性。
附图说明
图1为本发明流程图;
图2为本发明结构示意图;
图3为本发明自注意力机制框架图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明,但不是对本发明的限定。
图1示出了一种突显核心内容的文本自动摘要方法,包括如下步骤:
(一)将数据集中的文本合并成一个文档,进行分词处理,生成词汇表;
词汇表的生成是为了确定数据集中的文本单词的位置。事先设置一个词汇表的大小,这里我们设置大小为50000。随后将数据集中的文本全部合并到一个文本中去。对于英文数据,由于英语的基本组成单位就是词,在英文中,单词之间是以空格作为自然分界符组成语句,语句之间再利用标点分隔组成大篇幅文本,所以我们可以简单的利用标点进行分句处理,利用空格进行分词处理。
对于中文数据,需要说明的是,分词处理是将文本中的字符串切分成合理的、符合语境意义的词语序列的过程,它是自然语言理解和文本信息处理的关键技术和难点之一,也是自动生成摘要研究框架中的一个重要处理环节。中文的词语切分问题比较复杂,其原因在于词语之间没有明显的标记,词语的使用灵活、变化多样、语义丰富,容易产生歧义。而通过现有的分词工具可以明显降低这些错误,因此,对于中文数据本发明的方法采用分词工具对文本进行分词,进而降低错误率。
在分词处理后,统计文本中每个词出现的个数,并做一个从大到小排序,取其中大小为前50000的单词作为词汇表中的单词来构建一个词汇表,作为原始数据的所有文本的词汇表。这样是为了确保在进行摘要生成中的运算速度,以及原始数据单个文本中99%的词都能出现在词汇表中。当然为了使得每个文本中的单词都能参与运算,除了创建一个50000单词大小的词汇表。在摘要的生成过程中,我们还为每个文本的词汇表之外词构建一个另外的临时的词汇表,在当前的文本生成完摘要之后,这个词汇表会消失不见。因此,每个文本的摘要的生成,都会存在由相同一个词汇表和不同文本中词汇表之外词构成的词典。
(二)进行关键信息获取,具体分步骤如下:
(1)对数据集中的单个文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;
对原始数据中的单个文本进行上述步骤中的分词处理,处理后的数据,按照单词序列的顺序分别进行向量化(word embedding)表示。词向量主要有两种形式,分别是稀疏向量和密集向量。所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引。举例来说,如果有一个词典[“桌子”,”椅子”,”飞机”],那么“桌子”对应的词向量就是[1,0,0],“椅子”对应的词向量就是[0,1,0]。这种表示方法不需要繁琐的计算,简单易得,但是缺点也不少,比如长度过长。如果单个文本中有1000个单词,那么维度会变成1000×1000,维度会变的很大。至于密集向量,又称distributedrepresentation,即分布式表示。基本思路是通过训练将每个词映射成一个固定长度的短向量,所有这些向量就构成一个词向量空间,每一个向量可视为该空间上的一个点。此时向量长度可以自由选择,与词典规模无关。还是用之前的例子[“桌子”,”椅子”,”飞机”],经过训练后,“桌子”对应的向量可能是[1,0,1,1,0],而“椅子”对应的可能是[1,0,1,0,0],而“飞机”对应的可能是[0,1,0,0,1]。这个时候单个文本中有1000个单词,那么维度会变成1000×4。可以看到维度缩小了很多,这是非常大的优势。因此,本方法采用密集向量,单个文本中的每个单词需要用一个数字去表示他,这一步已经在词典的生成时完成了,每个词典中词对应着文本中单词的数字。当一个单词输入到编码器时,根据它的数字给与每个词一个固定长度的短向量。最后构成了一个词向量矩阵,它的大小是文本的单词数×词向量的维度,这个词向量矩阵代表了单个文本的所有单词。注意这里的词向量的建立只是初始的词向量,并没有经过任何修改优化,需要建立神经网络通过训练的办法修改词向量里面的参数使得词向量每一个词向量能够表示每一个不同的词。
(2)将得到的每个文本的全部词向量按顺序输入一个由双向的循环神经网络构成的编码器,得到输入每个词后的文本状态向量;其中,最后一个状态向量代表该文本的状态向量;
在本方法的关键信息获取中,首先需要的得到该文本中每个词对应时刻的状态向量。通过采用长短期记忆网络来获取,该网络的计算公式如下:
ft=σ(Wfxt+Wfht-1)
it=σ(Wixt+Wiht-1)
Ot=σ(WOxt+WOht-1)
ht=Ot*tanh(Ct)
上述公式中t代表t时刻,xt为时刻t时输入词的词向量,ht-1为t时刻的上一时刻的词向量输入后得到的文本的状态向量,ht为xt输入后得到的文本的状态向量。ft、it和Ot是经过xt和ht-1计算的三个门机制,输出0到1之间的数值,前2个门用来处理输入的信息,第3个门用来处理冗余信息。Ct-1是t时刻的上一个时刻词向量输入后得到的未经过Ot处理的文本的状态向量。是t时刻ht-1和xt的信息的整合。Ct是t时刻包含了冗余信息的文本的状态向量。需要说明的是,向量的处理顺序是按时间展开的,即,每个时刻对应着一个单词。
结合图1和图2可知,词向量在长短期记忆网络完成其状态向量的表示,具体的计算过程是将第i个词向量和第i-1个词向量对应文本的状态向量输入到第i个长短期记忆网络中,经过第i个长短期记忆网络中处理得到输入第i个词向量后文本的状态向量。由上述的计算过程可知,在本发明的方法中,由于通过循环神经网络对文本进行建模,使得t时刻输入单词后对应文本的状态向量理论上包含了该时刻之前的所有单词的信息,也就是说,输入最后一个词后得到的文本的状态向量hn包含了整个文本的所有信息,因此,hn代表了整个文本的状态向量。
需要注意的是,编码器的长短期记忆网络是双向的。因为在有些问题中,当前时刻的输出不仅和之前的状态向量有关系,也和之后的状态向量相关。这时就需要双向长短期记忆网络来解决这类问题。例如预测一个语句中缺失的单词不仅需要根据前文来判断,也需要根据后面的内容,这时双向长短期记忆网络就可以发挥它的作用。在每一个时刻t,输入会同时提供给这两个方向相反的长短期记忆网络,而输出则是由这两个单向长短期记忆网络的状态向量拼接而成。
(3)利用自注意机制将编码器的状态向量互相匹配,求得各个状态向量的注意力分布,以分配不同的焦点权重;将得到的权重对状态向量进行加权和计算,得到关键信息向量;
在获得文本输入编码器的每个时刻的状态向量集合H后。如图3自注意力机制框架图中所示,利用自注意计算编码器的状态向量与各个时刻的状态向量的相似度的值,通过比较每个时刻的相似度值的大小。可以突出文本中的一些关键信息。其中,自注意的计算公式如下:
H={h1,h2,...,hn}
fi j(hi,hj)=vTtanh(W1hi+W2hj+battn1)
ei=∑nfi n;a'=softmax(e)
z=∑a'H
状态向量集合H是由编码器中的双向长短期记忆网络每个时刻输出的状态向量构成的。hi代表了第i个时刻的状态向量,hj代表了第i个时刻的状态向量,通过f(hi,hj)来获取第i个时刻与第j个时刻的状态向量的相似度。再将第i个时刻与编码器中所有状态向量的相似度的累加和后经过归一化得到的值作为自注意中第i个时刻的权重系数。最后,所有时刻的状态向量与其权重系数相乘的累加和作为文本的关键信息向量z,它代表了整篇文档的中的关键信息。
本发明的方法通过双向长短期记忆网络与自注意得到的关键信息向量与该文本中的关键单词相关,从而使得最终得到的文本摘要能聚焦于文本的核心内容,没有文本中的冗余信息的干扰。
(三)进行双注意指针网络摘要生成,具体分步骤如下:
(1)将所述输入文本的状态向量输入一个由单向的循环神经网络构成的解码器进行解码,得到摘要文档的第一个状态向量;
由于自注意机制只关注于文本内部信息,注意力固定,这使得生成的摘要不能生成含有上下文语义,只会存在重复且分散的词语。因此,利用软注意力机制与自注意力机制结合。通过软注意力机制产生的上下文向量来补充遗漏的上下文内容,保持生成的摘要的连贯性。
在双注意指针网络摘要生成阶段,共用关键信息获取阶段的编码器的状态向量,以此减少参数的计算,提高摘要生成的速度。在经过编码器处理的得到的文本的状态向量,输入到由单向的长短期记忆网络构成的解码器中进行解码,从而得到每个时刻的解码器的状态向量,第t个时刻解码器的状态向量记为st。摘要文档的第一个状态向量记为s1。
(2)将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算,得到原始文本所有单词的软注意力分布,以分配不同的焦点权重;
将st参与到软注意力机制的计算中,这里因为为第一个实例,所以t的值为1。这样在预测当前t时刻的单词时,会生成对应时刻关于原文本所有单词的注意力分布。也就是在预测摘要的时候,告诉模型,原文的哪些信息更加重要,由此产生不同的上下文语境向量。软注意力机制计算公式如下:
at=softmax(et)
at是当前时刻的注意力分布,其中是第i个编码器状态向量对应的覆盖向量的权重。覆盖向量是译码器中先前时刻的所有注意力的总和,用来消除重复出现的词汇。需要注意的是,自注意不会加入这个计算,因为它是固定的。kt记录着模型已经关注过原文的哪些词,因为不同词的注意力权重系数都是不同的,在词没有重复的情况下,系数可以分隔存放在一个向量中。让这个覆盖向量影响当前时刻的注意力计算。这样做的目的在于,在模型进行当前时刻注意力计算的时候,告诉它之前它已经关注过的词,希望避免出现连续注意力到某几个词上的情形。
由于软注意力机制为全局的,为了提高覆盖的精度,在覆盖向量中加入截断参数β,过滤其他非主要关注词,并以一个极小的数ε来代替这些词权重,避免在不断累加后,主要目标的生成受到影响。改进后的第i个状态向量的覆盖权重计算算法如表1所示:
(3)将得到的权重对编码器的状态向量进行加权和计算,得到上下文信息向量;
获取步骤(2)中的注意力权重,与编码器的状态向量进行加权和计算,计算公式如下:
ct是编码器状态向量的加权和,代表了从文中读取的内容,称这个向量为上下文向量。这里因为为第一个实例,所以t的值为1。
(4)将上下文信息向量和所述的关键信息向量通过门机制进行融合,得到混合信息向量;
在获取了上下文向量后,在网络中引入门机制,获取解码中每一步需要关键信息的概率。在t时刻,这里因为为第一个实例,所以t的值为1。通过关键信息向量z、解码器的状态st和解码器上一时刻生成的摘要单词词向量计算得到:
ot=(1-gm)ct+gm z
gm用来选择关键信息向量,还是上下文向量。通过门机制融合的关键信息向量和上下文向量,称为混合信息向量ot。
(5)将混合信息向量与摘要文档的第一个状态向量进行拼接,做两层线性变换,得到一个词汇表长度大小的一维向量;
随后将混合信息向量与摘要文档的第一个状态向量进行拼接,做两层线性变换,得到一个词汇表长度大小的一维向量。词汇表有50000个词,即生成摘要的每一个词从这50000个词中进行候选,则这个一维向量大小为(1,50000),对这个向量进行归一化处理,选出一个最大的概率,对应词汇表中该位置的词,代表普通生成的词。一维向量的计算公式如下:
Pvocab=softmax(V4(V3[st,ot]+b3)+b4)
Pvocab为普通生成时词汇表中每一个词的概率。
(6)将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展,获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率,选择其中概率最高的词作为所得摘要的第一个生成词;
指针机制用来找出文本中词汇表之外词,并把词汇表之外词直接复制到摘要中。有利于摘要信息直接包含文本中的细节信息,且能避免词汇表中不存在词的未知词问题。指针机制是每个文本的词汇表之外词构建一个临时的词汇表,由软注意力的权重分布产生这个临时词汇表的概率分布。同时通过将混合信息向量与当前时刻的状态变量和输入词向量量做非线性变换,产生一个当前时刻下pgen值作为摘要是普通生成词的概率阀值,则1-pgen为摘要词从原文中复制词的概率:
每一个时刻的ot,st,xt是变化的,依据每一时刻的编码、解码信息,求出普通生成词的概率。这样,对于文本中的每一个词都存在一个复制概率,结合软注意机制求出的当前原文中每个词的重要度at,也是从原文中复制重要信息的依据,即表示机器生成的摘要中那些能从原文中拷贝出来的词。最后得到的p(w)是两个词汇表的合并的一个概率分布,其长度是词汇表长度加上源文本中未出现在词表中的单词个数。选择其中概率最高的词为当前时刻的摘要的生成词。
(7)将得到的所述第一个生成词和得到的摘要文档的第一个状态向量输入到解码器中,重复分步骤(1)到分步骤(6),得到摘要的第二个生成词和摘要文档的第二个状态向量;将得到的新单词和得到该新的摘要文档的状态向量循环输入到上述的重复步骤中,直到摘要生成完毕。
以上结合附图对本发明的实施方式做出了详细说明,但本发明不局限于所描述的实施方式。对于本领域技术人员而言,在不脱离本发明的原理和精神的情况下,对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。
Claims (5)
1.一种突显核心内容的文本自动摘要方法,其特征在于,包括如下步骤:
(一) 将数据集中的文本合并成一个文档,进行分词处理,生成词汇表;
(二)进行关键信息获取,具体分步骤如下:
(1)对数据集中的单个文本进行分词处理,对经过分词处理后的单词进行向量化表示得到词向量;
(2)将得到的每个文本的全部词向量按顺序输入一个由双向的循环神经网络构成的编码器,得到输入每个词后的文本状态向量;其中,最后一个状态向量代表该文本的状态向量;
(3)利用自注意机制将编码器的状态向量互相匹配,求得各个状态向量的注意力分布,以分配不同的焦点权重;将得到的权重对状态向量进行加权和计算,得到关键信息向量;
(三)进行双注意指针网络摘要生成,具体分步骤如下:
(1)将所述输入文本的状态向量输入一个由单向的循环神经网络构成的解码器进行解码,得到摘要文档的第一个状态向量;
(2)将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算,得到原始文本所有单词的软注意力分布,以分配不同的焦点权重;所述覆盖向量来自解码器先前的状态向量对应的所有注意力权重的总和,如果是第一个状态向量,则覆盖向量为0;
(3)将得到的权重对编码器的状态向量进行加权和计算,得到上下文信息向量;
(4)将上下文信息向量和所述的关键信息向量通过门机制进行融合,得到混合信息向量;
(5)将混合信息向量与摘要文档的第一个状态向量进行拼接,做两层线性变换,得到一个词汇表长度大小的一维向量;
(6)将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展,获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率,选择其中概率最高的词作为所得摘要的第一个生成词;
(7)将得到的所述第一个生成词和得到的摘要文档的第一个状态向量输入到解码器中,重复分步骤(1)到分步骤(6),得到摘要的第二个生成词和摘要文档的第二个状态向量;将得到的新单词和得到该新的摘要文档的状态向量循环输入到上述的重复步骤中,直到摘要生成完毕。
2.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(二)分步骤(2)中,所述文本的状态向量包括:将第i个所述词向量和第i-1所述词向量对应文本的状态向量输入到第i个循环神经网络模块中,经过第i个循环神经网络模块处理得到输入第i个词向量后文本的状态向量。
3.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(二)分步骤(2)中,所述循环神经网络为LSTM是长短期记忆网络,虽然结构相同,但是参数不同。
4.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(三)分步骤(1)中,所述循环神经网络为LSTM是长短期记忆网络,虽然结构相同,但是参数不同。
5.根据权利要求1所述的突显核心内容的文本自动摘要方法,其特征在于,步骤(三)分步骤(6)中,所述指针网络是将软注意力分布的权重作为指向输入单词的指针,不考虑输入元素,而是以概率的值作为指针指向输入元素的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552023.6A CN110287490B (zh) | 2019-06-25 | 2019-06-25 | 一种突显核心内容的文本自动摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552023.6A CN110287490B (zh) | 2019-06-25 | 2019-06-25 | 一种突显核心内容的文本自动摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287490A true CN110287490A (zh) | 2019-09-27 |
CN110287490B CN110287490B (zh) | 2022-11-25 |
Family
ID=68005430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910552023.6A Expired - Fee Related CN110287490B (zh) | 2019-06-25 | 2019-06-25 | 一种突显核心内容的文本自动摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287490B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153864A (zh) * | 2017-12-25 | 2018-06-12 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于神经网络生成文本摘要的方法 |
CN109271629A (zh) * | 2018-09-07 | 2019-01-25 | 中山大学 | 基于强化学习的生成式文本摘要方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
-
2019
- 2019-06-25 CN CN201910552023.6A patent/CN110287490B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153864A (zh) * | 2017-12-25 | 2018-06-12 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于神经网络生成文本摘要的方法 |
CN109271629A (zh) * | 2018-09-07 | 2019-01-25 | 中山大学 | 基于强化学习的生成式文本摘要方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
Non-Patent Citations (5)
Title |
---|
ABIGAIL SEE 等: "Get To The Point: Summarization with Pointer-Generator Networks", 《ARXIV:1704.04368V2 [CS.CL] 》 * |
FREEK BOUTKAN 等: "Point-less: More Abstractive Summarization with Pointer-Generator Networks", 《ARXIV:1905.01975V1 [CS.CL]》 * |
XIAOPING JIANG 等: "Improving Pointer-Generator Network with Keywords Information", 《NLPCC 2018》 * |
张随远 等: "多文档短摘要生成技术研究", 《广西师范大学学报 ( 自 然科学版 )》 * |
方旭 等: "核心词修正的Seq2Seq短文摘要", 《计算机工程与设计》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110287490B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Hierarchical attention flow for multiple-choice reading comprehension | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN112734881B (zh) | 基于显著性场景图分析的文本合成图像方法及系统 | |
CN108153864A (zh) | 基于神经网络生成文本摘要的方法 | |
Zhang et al. | Exploring question understanding and adaptation in neural-network-based question answering | |
CN110032633A (zh) | 多轮对话处理方法、装置和设备 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
Esmaeilzadeh et al. | Neural abstractive text summarization and fake news detection | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113779220A (zh) | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN116681810B (zh) | 虚拟对象动作生成方法、装置、计算机设备和存储介质 | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
CN111339407A (zh) | 一种信息抽取云平台的实现方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Li et al. | EASE: extractive-abstractive summarization end-to-end using the information bottleneck principle | |
CN114841353A (zh) | 一种融合句法信息的量子语言模型建模系统及其应用 | |
Zhao et al. | Shared-private memory networks for multimodal sentiment analysis | |
CN114417823A (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
Dai et al. | Aspect-level sentiment analysis merged with knowledge graph and graph convolutional neural network | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221125 |