CN110134782A - 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 - Google Patents
一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 Download PDFInfo
- Publication number
- CN110134782A CN110134782A CN201910400306.9A CN201910400306A CN110134782A CN 110134782 A CN110134782 A CN 110134782A CN 201910400306 A CN201910400306 A CN 201910400306A CN 110134782 A CN110134782 A CN 110134782A
- Authority
- CN
- China
- Prior art keywords
- abstract
- text
- sequence
- decoder
- hidden state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 230000000306 recurrent effect Effects 0.000 claims abstract description 21
- 230000001351 cycling effect Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 238000003780 insertion Methods 0.000 claims description 9
- 230000037431 insertion Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 102220070930 rs794728599 Human genes 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 3
- 230000010076 replication Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241001237728 Precis Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 102220103394 rs772658698 Human genes 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法,本发明在基于注意力机制的编码器‑解码器模型基础上,提出基于信息增益的选择机制和基于拷贝的LSTM变体。一方面,在编码器和解码器之间增加改进的选择机制,判断原文本中的关键信息,并将概要信息提炼出来,提高了自动文本摘要的概括能力;另一方面,以LSTM变体作为解码器端循环神经网络的循环单元,可以优化解码过程,提高解码效率,减少生成摘要中的重复问题从而提高生成摘要的可读性。
Description
技术领域
本发明涉及人工智能与自然语言处理的技术领域,具体涉及一种基于改进的选择机制和 LSTM变体的文本摘要模型及文本摘要方法。
背景技术
随着互联网的迅速发展,互联网中的文本数据如新闻、博客、邮件充斥着我们的生活,这些文本数据中往往存在冗余无用的信息。在这个信息爆炸的互联网大数据时代,如何从大量文本数据中检索出有用的信息是一项非常具有挑战性的任务。通过简短的摘要,我们可以高效地检索文本内容,挖掘文本信息。文章的标题可以是哗众取宠、名不副实的,但是文章的摘要一定是符合文章中心思想以及内容的。人工为每篇文章、新闻、博客、邮件撰写摘要,将耗费大量的人力、物力资源。
随着计算机技术和人工智能的发展,自然语言处理领域中的自动文本摘要技术可以高效的完成大量文本摘要工作。自动文本摘要技术分为抽取式文本摘要技术和生成式文本摘要技术,生成式文本摘要技术相比抽取式文本摘要技术有更强的概括能力。本发明就是一种生成式文本摘要技术。然而传统的生成式文本摘要技术仍然存在以下两个问题:1)如何判断原文本中的重要语句和关键词?2)如何提高生成摘要的可读性?
本发明在传统基于注意力机制的编码器-解码器模型上,针对原文本表示问题,基于信息论中信息熵和信息增益的思想设计一种可以提炼原文本概要信息的改进的选择机制,解决如何判断原文本中关键信息的问题;针对解码器的解码过程,基于拷贝的思想设计一种可以拷贝信息的LSTM变体作为循环神经网络的循环单元,解决生成摘要中的重复问题从而提高生成摘要的可读性。
发明内容
发明目的:本发明所要解决的技术问题是使用生成式文本摘要技术实现自动文本摘要,针对传统生成式文本摘要技术提炼原文本概要信息困难的问题,提出一种基于信息论中信息熵和信息增益的思想的选择机制对编码后的信息进行提炼;针对生成摘要存在重复单词的问题,提出一种基于拷贝思想的LSTM变体作为解码器端循环神经神经网络的循环单元。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于改进的选择机制和LSTM变体的文本摘要模型,包括编码器、选择器和解码器,所述文本摘要模型的输入样本数据格式为:原文本-摘要;
编码器对输入的样本数据中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中,n为原文本序列的长度;
选择器对隐藏状态序列he进行选择,得到筛选后对应的概要状态序列 其中s为概要状态序列的长度且s≤n;对隐藏状态序列中的每个元素筛选的具体步骤包括:
步骤a,通过下式计算得到原文本表示s:
步骤b,通过下式计算元素对摘要的信息增益IGi:
其中tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;
步骤c,根据步骤b得到的信息增益IGi通过下式对元素进行筛选:
步骤d,将的概要状态丢弃得到最后的概要状态序列作为选择器的输出;
解码器包括词嵌入层和循环神经网络层,循环神经网络层使用LSTM变体网络作为循环单元;词嵌入层将样本中真实摘要序列y*中的每一个元素转化为词嵌入向量wt,循环神经网络层中的每一个LSTM变体网络针对其相应的wt生成隐藏状态生成的步骤为:
根据嵌入层输出的wt和LSTM变体上一时间步输出的隐藏状态计算遗忘门拷贝门输出门
其中,Wc、Wo、Wc为权重矩阵,bc、bo、bc为偏置向量;
计算候选拷贝信息
更新拷贝细胞状态
计算得到LSTM变体输出的隐藏状态
解码器根据和采用注意力机制选择出摘要词yt+1,最终得到预测摘要序列y=(y0, y1,y2,...,yn)。
一种基于改进的选择机制和LSTM变体的文本摘要方法,包括步骤:
步骤S1,数据预测处理:将采集到的样本数据进行预处理,形成训练样本集,训练样本集中的每个样本格式为:原文本-摘要;
步骤S2,文本摘要模型训练:利用训练样本集使用交叉熵训练算法训练文本摘要模型,所述文本摘要模型为权利要求1所述的文本摘要模型;训练的具体步骤包括:
步骤S21,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x=(x0,x1, x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中n为原文本序列的长度;
步骤S22,选择阶段:使用文本摘要模型中的选择器对步骤S21得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;
步骤S23,解码阶段:使用文本摘要模型中的解码器将样本中的摘要序列 和步骤S22中得到的概要状态序列作为输入,解码预测得到生成摘要序列 y=(y0,y1,y2,...,yn),其中m为样本中真实的摘要序列长度;
步骤S24,反向传播更新模型参数:计算步骤S23中得到的生成摘要序列y=(y0,y1,y2,...,yn)与参考摘要序列之间的误差,并通过反向传播法更新网络中的参数;
步骤S3,对新输入的原文本,利用训练好的文本摘要模型使用集束搜索算法生成摘要。
进一步的,所述步骤S21编码阶段在时间步t时刻执行以下步骤:
步骤S211,将xt输入到编码器的词嵌入层,得到对应的词嵌入向量wt;
步骤S212,将步骤S211得到的词嵌入向量wt和上一时间步编码器输出的隐藏状态输入到编码器的双向循环网络层得到正向隐藏状态和反向隐藏状态
步骤S213,将步骤S212得到的正向隐藏状态和反向隐藏状态通过下式得到编码器针对xt最终输出的隐藏状态ht:
进一步的,所述编码器的双向循环网络层使用长短期记忆单元作为循环单元。
进一步的,所述解码阶段的具体步骤包括:
步骤S231,通过下式初始化解码器中循环神经网络层LSTM变体网络的待拷贝细胞状态
其中是步骤S21结束后解码器中正向长短期记忆单元的细胞状态,是步骤S21结束后解码器中反向长短期记忆单元的细胞状态,Wc和bc分别为权重矩阵和偏置向量;
步骤S232,初始化解码器中循环神经网络层LSTM变体网络的拷贝细胞状态为0;
步骤S233,针对样本中真实摘要序列y*中的每一个元素进行以下步骤得到对应预测输出的摘要词yt+1,最终得到生成摘要序列y=(y0,y1,y2,...,yn):
步骤S2331,将输入到解码器的词嵌入层得到对应的词嵌入向量wt;
步骤S2332,将步骤S2331得到的词嵌入向量wt和上一时间步解码器输出的隐藏状态输入到解码器循环神经网络层得到隐藏状态
步骤S2333,针对选择器输出的概要状态序列中的每一个元素通过下式计算其与步骤S2332得到的隐藏状态之间的注意力得分et,i:
其中,tanh(·)为激活函数,Wa和Ua为权重矩阵,va为权重向量,ba为偏置向量;
步骤S2334,根据步骤S2333得到的注意力得分,通过下式计算概要状态序列上的注意力分布αt:
步骤S2335,根据步骤S2334得到的注意力分布,通过下式计算上下文向量ct:
步骤S2336,根据步骤S2335得到的上下文向量,通过下式计算对应的词汇表分布Pvocab,t:
其中,softmax(·)为归一化指数函数,Wh和Wh为权重矩阵,bz和bh为偏置向量;
步骤S2337,根据步骤S2336得到的词汇表分布Pvocab,t通过指针-生成网络计算得到虚拟词汇表分布
步骤S2338,根据步骤S2337得到的虚拟词汇表分布选择概率最大的单词作为解码器预测输出的摘要词yt+1。
进一步的,所述步骤S2337中指针-生成网络计算得到虚拟词汇表分布的具体步骤包括:
步骤S23371,通过下式计算生成概率pgen,t:
其中,Wg、Ug和Vg是权重矩阵,bg是偏置向量,其参数都通过网络学习得到;
步骤S23372,通过下式构造虚拟词汇表Vvir:
Vvir=V∪χ∪<UNK>
步骤S23373,通过下式计算生成词汇表分布Pg(yt):
步骤S23374,通过下式计算拷贝词汇表分布Pc(yt):
步骤S23375,通过下式计算虚拟词汇表分布
进一步的,所述步骤S3中对新输入的原文本生成摘要的具体步骤包括:
步骤S31,对新输入的原文本进行数据预处理为文本摘要模型接受的输入序列 x=(x0,x1,x2,…,xn);
步骤S32,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x进行编码,得到编码后对应的隐藏状态序列
步骤S33,选择阶段:使用文本摘要模型中的选择器对步骤S32得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列
步骤S34,解码阶段:使用文本摘要模型中的解码器对步骤S33中得到的概要状态序列进行解码,预测得到对应的生成摘要序列y=(y0,y1,y2,...,ym);
步骤S35,文本摘要模型输出生成摘要y并结束。
本发明相比现有技术,具有以下有益效果:
本发明在基于注意力机制的编码器-解码器模型基础上,提出基于信息论中信息熵和信息增益的思想而改进的选择机制和基于拷贝思想的LSTM变体。一方面,改进的选择机制可以判断原文本中的关键信息,并将概要信息提炼出来,提高了自动文本摘要的概括能力;另一方面,以LSTM变体作为解码器端循环神经网络的循环单元可以优化解码过程,提高解码效率,减少生成摘要中的重复问题从而提高生成摘要的可读性。
附图说明
图1是本发明的一种基于改进的选择机制和LSTM变体的文本摘要方法的流程图;
图2是本发明的一种基于改进的选择机制和LSTM变体的文本摘要模型的结构示意图;
图3是本发明编码器与选择器的结构示意图;
图4是本发明解码器中LSTM变体的结构示意图;
图5是本发明的文本摘要模型解码器训练阶段的流程图;
图6是本发明的文本摘要模型解码器生成摘要阶段的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本发明实施例的一种基于改进的选择机制和LSTM变体的文本摘要模型及文本摘要方法。
如图2所示为基于改进的选择机制和LSTM变体的文本摘要模型结构图,包括编码器、选择器、解码器;其中,编码器对输入的样本数据中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中,n为原文本序列的长度;
选择器对隐藏状态序列he进行选择,得到筛选后对应的概要状态序列 其中s为概要状态序列的长度且s≤n;对隐藏状态序列中的每个元素筛选的具体步骤包括:
步骤a,通过下式计算得到原文本表示s:
步骤b,通过下式计算元素对摘要的信息增益IGi:
其中tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;
步骤c,根据步骤b得到的信息增益IGi通过下式对元素进行筛选:
步骤d,将的概要状态丢弃得到最后的概要状态序列作为选择器的输出;
解码器包括词嵌入层和循环神经网络层,循环神经网络层使用LSTM变体网络作为循环单元;词嵌入层将样本中真实摘要序列y*中的每一个元素转化为词嵌入向量wt,循环神经网络层中的每一个LSTM变体网络针对其相应的wt生成隐藏状态生成的步骤为:
根据嵌入层输出的wt和LSTM变体上一时间步输出的隐藏状态计算遗忘门拷贝门输出门
其中,Wc、Wo、Wc为权重矩阵,bc、bo、bc为偏置向量;
计算候选拷贝信息
更新拷贝细胞状态
计算得到LSTM变体输出的隐藏状态
解码器根据和采用注意力机制选择出摘要词yt+1,最终得到预测摘要序列y= (y0,y1,y2,...,yn)。
如图1所示,本发明提出一种基于改进的选择机制和LSTM变体的文本摘要方法,包括如下步骤:
步骤S1,数据集预处理阶段:将数据集进行预处理,形成用于训练文本摘要模型的训练集。
步骤S2,文本摘要模型训练阶段:利用训练集使用交叉熵训练算法训练模型,得到文本摘要模型。
步骤S3,文本摘要模型生成摘要阶段:对新输入的原文本,利用训练好的文本摘要模型使用集束搜索算法生成摘要。
具体的,步骤S1具体包括以下步骤:
步骤S11,数据清洗、去噪音;
步骤S12,构建词汇表:遍历原文本和摘要并统计每个单词在整个语料中出现的词频,将单词按词频排序并保留前5万个单词构建词汇表,每一行格式如下:
id单词词频
其中,id、单词、词频用空格隔开,id从0开始。词汇表中默认<SOS>是id为0的单词表示序列的开始,<EOS>是id为1的单词表示序列的结束。
步骤S13,构建训练集:将原文本和摘要中的单词用词汇表中的id替代,并将不在单词表中的单词去除。每一行为一个原文本和摘要样本构建训练集,每一行格式如下:
原文本摘要
其中,原文本和摘要用Tab隔开。
进一步的,对于英文语料数据集,步骤S11具体包括以下步骤:
步骤S111,将英文字母全部小写;
步骤S112,所有的符号统一转换为英文符号。
进一步的,对于中文语料数据集,步骤S11具体包括以下步骤:
步骤S113,将原文本和摘要进行分词,用逗号隔开每个单词;
步骤S114,所有的符号统一转换为中文符号。
具体的,针对训练集中的每一个原文本-摘要样本,所述步骤S2具体包括以下步骤:
步骤S21,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x=(x0,x1, x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中n为原文本序列的长度;
步骤S22,选择阶段:使用文本摘要模型中的选择器对步骤S21得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;
步骤S23,解码阶段:使用文本摘要模型中的解码器将样本中的摘要序列 和步骤S22中得到的概要状态序列作为输入,解码预测得到生成摘要序列 y=(y0,y1,y2,...,yn),其中m为样本中真实的摘要序列长度。
步骤S24,反向传播更新模型参数阶段:计算步骤S23中得到的生成摘要序列 y=(y0,y1,y2,...,yn)与参考摘要序列之间的误差,并更新网络中的参数。
请参考图3,针对原文本输入序列中的每一个单词元素xt,所述步骤S21编码阶段对应时间步t时刻具体包括以下步骤:
步骤S211,将xt输入到编码器的词嵌入层(Embedding)得到对应的词嵌入向量wt;
步骤S212,将步骤S211得到的词嵌入向量wt和上一时间步编码器输出的隐藏状态输入到编码器的双向循环网络层(bi-RNN)得到正向隐藏状态和反向隐藏状态其中双向循环网络层使用长短期记忆单元(LSTM单元)作为循环单元;
步骤S213,将步骤S212得到的正向隐藏状态和反向隐藏状态通过下式得到编码器针对xt最终输出的隐藏状态ht:
如图3所示,针对步骤S21得到的隐藏状态序列中的每个元素步骤S22中的选择器具体包括以下步骤:
步骤S211,通过下式计算得到原文本表示s:
步骤S212,通过下式计算元素对摘要的信息增益IGi:
其中tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量,其参数都是通过网络学习得到;
步骤S213,根据步骤S212得到的信息增益IGi通过下式对元素进行筛选:
步骤S214,将的概要状态丢弃得到最后的概要状态序列作为选择器的输出。
如图5所示,步骤S23具体包括以下步骤:
步骤S231,通过下式初始化解码器中循环神经网络层LSTM变体网络的待拷贝细胞状态
其中是步骤S21结束后解码器中正向LSTM单元的细胞状态,是步骤S21结束后解码器中反向LSTM单元的细胞状态,Wc和bc分别为权重矩阵和偏置向量,其参数都是通过网络学习得到;
步骤S232,初始化解码器中循环神经网络层LSTM变体网络的拷贝细胞状态为0;
步骤S233,针对样本中真实摘要序列y*中的每一个元素进行以下步骤得到对应预测输出的摘要词yt+1,最终得到生成摘要序列y=(y0,y1,y2,...,yn):
步骤S2331,将输入到解码器的词嵌入层(Embedding)得到对应的词嵌入向量wt;
步骤S2332,将步骤S2331得到的词嵌入向量wt和上一时间步解码器输出的隐藏状态输入到解码器循环神经网络层得到隐藏状态其中循环神经网络层使用LSTM变体网络作为循环单元;
步骤S2333,针对选择器输出的概要状态序列中的每一个元素通过下式计算其与步骤S2332得到的隐藏状态之间的注意力得分et,i:
其中tanh(·)为激活函数,Wa和Ua为权重矩阵,va为权重向量,ba为偏置向量,其参数都是通过网络学习得到;
步骤S2334,根据步骤S2333得到的注意力得分,通过下式计算概要状态序列上的注意力分布αt:
步骤S2335,根据步骤S2334得到的注意力分布,通过下式计算上下文向量ct:
步骤S2336,根据步骤S2335得到的上下文向量,通过下式计算对应的词汇表分布Pvocab,t:
其中softmax(·)为归一化指数函数,Wh和Wh为权重矩阵,bz和bh为偏置向量,其参数都是通过网络学习得到;
步骤S2337,根据步骤S2336得到的词汇表分布Pvocab,t通过指针-生成网络计算得到虚拟词汇表分布
步骤S2338,根据步骤S2337得到的虚拟词汇表分布选择概率最大的单词作为解码器预测输出的摘要词yt+1。
如图4所示,步骤S2332具体包括以下步骤:
步骤S23321,根据嵌入层输出的wt和LSTM变体上一时间步输出的隐藏状态计算遗忘门
其中Wf和bf分别为权重矩阵和偏置向量,其参数都是通过网络学习得到;
步骤S23322,根据Embedding层输出的wt和LSTM变体上一时间步输出的隐藏状态计算拷贝门
其中Wc和bc分别为权重矩阵和偏置向量,其参数都是通过网络学习得到;
步骤S23323,根据Embedding层输出的wt和LSTM变体上一时间步输出的隐藏状态计算输出门
其中Wo和bo分别为权重矩阵和偏置向量,其参数都是通过网络学习得到;
步骤S23324,通过下式计算候选拷贝信息
其中Wc和bc分别为权重矩阵和偏置向量,其参数都是通过网络学习得到;
步骤S23324,通过下式更新拷贝细胞状态
步骤S23325,通过下式更新待拷贝细胞状态
步骤S23326,通过下式计算得到LSTM变体输出的隐藏状态
进一步的,步骤S2337具体包括以下步骤:
步骤S23371,通过下式计算生成概率pgen,t:
其中Wg、Ug和Vg是权重矩阵,bg是偏置向量,其参数都通过网络学习得到;
步骤S23372,通过下式构造虚拟词汇表Vvir:
Vvir=V∪χ∪<UNK>
步骤S23373,通过下式计算生成词汇表分布Pg(yt):
步骤S23374,通过下式计算拷贝词汇表分布Pc(yt):
步骤S23375,通过下式计算虚拟词汇表分布
如图6所示,针对新输入的原文本,步骤S3具体包括以下步骤:
步骤S31,对新输入的原文本进行数据预处理为文本摘要模型接受的输入序列 x=(x0,x1,x2,…,xn);
步骤S32,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x进行编码,得到编码后对应的隐藏状态序列其中n为原文本序列的长度;
步骤S33,选择阶段:使用文本摘要模型中的选择器对步骤S32得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;
步骤S34,解码阶段:使用文本摘要模型中的解码器对步骤S33中得到的概要状态序列进行解码,预测得到对应的生成摘要序列y=(y0,y1,y2,...,ym);
步骤S35,文本摘要模型输出生成摘要y并结束。
进一步的,步骤S31具体包括以下步骤:
步骤S311,数据清洗、去噪音,同步骤S11;
步骤S312,将步骤S311处理后的原文本序列中的单词用步骤S12得到的词汇表中的id 替换得到文本摘要模型接受的输入序列x=(x0,x1,x2,...,xn)。
请参考图6,进一步的,步骤S34具体包括以下步骤:
步骤S341,通过下式初始化解码器中循环神经网络层LSTM变体网络的待拷贝细胞状态
其中是步骤S32结束后解码器中正向LSTM单元的细胞状态,是步骤S32结束后解码器中反向LSTM单元的细胞状态;
步骤S342,初始化解码器中循环神经网络层LSTM变体网络的拷贝细胞状态为0;
步骤S343,以y0=<SOS>作为解码器的第一个输入,预测得到对应的下一个摘要词直到 <EOS>或达到生成摘要的最大长度,最终得到生成摘要序列y=(y0,y1,y2,...,ym)。
进一步的,步骤S343中根据yt-1预测yt的过程同步骤S233。
终上所述,本发明在基于注意力机制的编码器-解码器模型基础上,提出基于信息论中信息熵和信息增益的思想而改进的选择机制和基于拷贝思想的LSTM变体,为生成式文本摘要技术提供了一种新的方式。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于改进的选择机制和LSTM变体的文本摘要模型,其特征在于,包括编码器、选择器和解码器,所述文本摘要模型的输入样本数据格式为:原文本-摘要;
编码器对输入的样本数据中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中,n为原文本序列的长度;
选择器对隐藏状态序列he进行选择,得到筛选后对应的概要状态序列 其中s为概要状态序列的长度且s≤n;对隐藏状态序列中的每个元素筛选的具体步骤包括:
步骤a,通过下式计算得到原文本表示s:
步骤b,通过下式计算元素对摘要的信息增益IGi:
其中tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;
步骤c,根据步骤b得到的信息增益IGi通过下式对元素进行筛选:
步骤d,将的概要状态丢弃得到最后的概要状态序列作为选择器的输出;
解码器包括词嵌入层和循环神经网络层,循环神经网络层使用LSTM变体网络作为循环单元;词嵌入层将样本中真实摘要序列y*中的每一个元素转化为词嵌入向量wt,循环神经网络层中的每一个LSTM变体网络针对其相应的wt生成隐藏状态生成的步骤为:
根据嵌入层输出的wt和LSTM变体网络上一时间步输出的隐藏状态计算遗忘门拷贝门输出门
其中,Wc、Wo、Wc为权重矩阵,bc、bo、bc为偏置向量;
计算候选拷贝信息
更新拷贝细胞状态
计算得到LSTM变体网络输出的隐藏状态
解码器根据和采用注意力机制选择出摘要词yt+1,最终得到预测摘要序列y=(y0,y1,y2,...,yn)。
2.一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,包括步骤:
步骤S1,数据预测处理:将采集到的样本数据进行预处理,形成训练样本集,训练样本集中的每个样本格式为:原文本-摘要;
步骤S2,文本摘要模型训练:利用训练样本集使用交叉熵训练算法训练文本摘要模型,所述文本摘要模型为权利要求1所述的文本摘要模型;训练的具体步骤包括:
步骤S21,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x=(x0,x1,x2,...,xn)进行编码,得到编码后对应的隐藏状态序列其中n为原文本序列的长度;
步骤S22,选择阶段:使用文本摘要模型中的选择器对步骤S21得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列其中s为概要状态序列的长度且s≤n;
步骤S23,解码阶段:使用文本摘要模型中的解码器将样本中的摘要序列 和步骤S22中得到的概要状态序列作为输入,解码预测得到生成摘要序列y=(y0,y1,y2,...,yn),其中m为样本中真实的摘要序列长度;
步骤S24,反向传播更新模型参数:计算步骤S23中得到的生成摘要序列y=(y0,y1,y2,...,yn)与参考摘要序列之间的误差,并通过反向传播法更新网络中的参数;
步骤S3,对新输入的原文本,利用训练好的文本摘要模型使用集束搜索算法生成摘要。
3.根据权利要求2所述的一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,所述步骤S21编码阶段在时间步t时刻执行以下步骤:
步骤S211,将xt输入到编码器的词嵌入层,得到对应的词嵌入向量wt;
步骤S212,将步骤S211得到的词嵌入向量wt和上一时间步编码器输出的隐藏状态输入到编码器的双向循环网络层得到正向隐藏状态和反向隐藏状态
步骤S213,将步骤S212得到的正向隐藏状态和反向隐藏状态通过下式得到编码器针对xt最终输出的隐藏状态ht:
4.根据权利要求3所述的一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,所述编码器的双向循环网络层使用长短期记忆单元作为循环单元。
5.根据权利要求2所述的一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,所述解码阶段的具体步骤包括:
步骤S231,通过下式初始化解码器中循环神经网络层LSTM变体网络的待拷贝细胞状态
其中是步骤S21结束后解码器中正向长短期记忆单元的细胞状态,是步骤S21结束后解码器中反向长短期记忆单元的细胞状态,Wc和bc分别为权重矩阵和偏置向量;
步骤S232,初始化解码器中循环神经网络层LSTM变体网络的拷贝细胞状态为0;
步骤S233,针对样本中真实摘要序列y*中的每一个元素进行以下步骤得到对应预测输出的摘要词yt+1,最终得到生成摘要序列y=(y0,y1,y2,...,yn):
步骤S2331,将输入到解码器的词嵌入层得到对应的词嵌入向量wt;
步骤S2332,将步骤S2331得到的词嵌入向量wt和上一时间步解码器输出的隐藏状态输入到解码器循环神经网络层得到隐藏状态
步骤S2333,针对选择器输出的概要状态序列中的每一个元素通过下式计算其与步骤S2332得到的隐藏状态之间的注意力得分et,i:
其中,tanh(·)为激活函数,Wa和Ua为权重矩阵,va为权重向量,ba为偏置向量;
步骤S2334,根据步骤S2333得到的注意力得分,通过下式计算概要状态序列上的注意力分布αt:
步骤S2335,根据步骤S2334得到的注意力分布,通过下式计算上下文向量ct:
步骤S2336,根据步骤S2335得到的上下文向量,通过下式计算对应的词汇表分布Pvocab,t:
其中,softmax(·)为归一化指数函数,Wh和Wh为权重矩阵,bz和bh为偏置向量;
步骤S2337,根据步骤S2336得到的词汇表分布Pvocab,t通过指针-生成网络计算得到虚拟词汇表分布
步骤S2338,根据步骤S2337得到的虚拟词汇表分布选择概率最大的单词作为解码器预测输出的摘要词yt+1。
6.根据权利要求5所述的一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,所述步骤S2337中指针-生成网络计算得到虚拟词汇表分布的具体步骤包括:
步骤S23371,通过下式计算生成概率pgen,t:
其中,Wg、Ug和Vg是权重矩阵,bg是偏置向量,其参数都通过网络学习得到;
步骤S23372,通过下式构造虚拟词汇表Vvir:
Vvir=V∪χ∪<UNK>
步骤S23373,通过下式计算生成词汇表分布Pg(yt):
步骤S23374,通过下式计算拷贝词汇表分布Pc(yt):
步骤S23375,通过下式计算虚拟词汇表分布
7.根据权利要求所述的一种基于改进的选择机制和LSTM变体的文本摘要方法,其特征在于,所述步骤S3中对新输入的原文本生成摘要的具体步骤包括:
步骤S31,对新输入的原文本进行数据预处理为文本摘要模型接受的输入序列x=(x0,x1,x2,…,xn);
步骤S32,编码阶段:使用文本摘要模型中的编码器对样本中的原文本序列x进行编码,得到编码后对应的隐藏状态序列
步骤S33,选择阶段:使用文本摘要模型中的选择器对步骤S32得到的隐藏状态序列进行选择,得到筛选后对应的概要状态序列
步骤S34,解码阶段:使用文本摘要模型中的解码器对步骤S33中得到的概要状态序列进行解码,预测得到对应的生成摘要序列y=(y0,y1,y2,...,ym);
步骤S35,文本摘要模型输出生成摘要y并结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400306.9A CN110134782B (zh) | 2019-05-14 | 2019-05-14 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400306.9A CN110134782B (zh) | 2019-05-14 | 2019-05-14 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134782A true CN110134782A (zh) | 2019-08-16 |
CN110134782B CN110134782B (zh) | 2021-05-18 |
Family
ID=67574020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910400306.9A Active CN110134782B (zh) | 2019-05-14 | 2019-05-14 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134782B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008277A (zh) * | 2019-10-30 | 2020-04-14 | 创意信息技术股份有限公司 | 一种自动文本摘要方法 |
CN111159394A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本摘要生成方法和装置 |
CN111178053A (zh) * | 2019-12-30 | 2020-05-19 | 电子科技大学 | 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法 |
CN111708877A (zh) * | 2020-04-20 | 2020-09-25 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111767718A (zh) * | 2020-07-03 | 2020-10-13 | 北京邮电大学 | 一种基于弱化语法错误特征表示的中文语法错误更正方法 |
CN111797225A (zh) * | 2020-06-16 | 2020-10-20 | 北京北大软件工程股份有限公司 | 一种文本摘要生成方法和装置 |
CN111858914A (zh) * | 2020-07-27 | 2020-10-30 | 湖南大学 | 一种基于句级评估的文本摘要生成方法和系统 |
WO2021155699A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州科技大学 | 面向中文长文本自动摘要的全局编码方法 |
CN113300813A (zh) * | 2021-05-27 | 2021-08-24 | 中南大学 | 基于注意力的针对文本的联合信源信道方法 |
CN114610871A (zh) * | 2022-05-12 | 2022-06-10 | 北京道达天际科技有限公司 | 基于人工智能算法的情报系统建模分析方法 |
RU2798362C2 (ru) * | 2020-10-06 | 2023-06-21 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и сервер для обучения нейронной сети формированию текстовой выходной последовательности |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170286376A1 (en) * | 2016-03-31 | 2017-10-05 | Jonathan Mugan | Checking Grammar Using an Encoder and Decoder |
CN108628882A (zh) * | 2017-03-20 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 用于预判问题的方法和系统 |
CN108804495A (zh) * | 2018-04-02 | 2018-11-13 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
CN109145105A (zh) * | 2018-07-26 | 2019-01-04 | 福州大学 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
-
2019
- 2019-05-14 CN CN201910400306.9A patent/CN110134782B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170286376A1 (en) * | 2016-03-31 | 2017-10-05 | Jonathan Mugan | Checking Grammar Using an Encoder and Decoder |
CN108628882A (zh) * | 2017-03-20 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 用于预判问题的方法和系统 |
CN108804495A (zh) * | 2018-04-02 | 2018-11-13 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
CN109145105A (zh) * | 2018-07-26 | 2019-01-04 | 福州大学 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
Non-Patent Citations (1)
Title |
---|
HENG-YANG LU等: "《Exploiting Global Semantic Similarity Biterms for Short-text Topic Discovery》", 《2018 IEEE 30TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008277A (zh) * | 2019-10-30 | 2020-04-14 | 创意信息技术股份有限公司 | 一种自动文本摘要方法 |
CN111008277B (zh) * | 2019-10-30 | 2020-11-03 | 创意信息技术股份有限公司 | 一种自动文本摘要方法 |
CN111178053A (zh) * | 2019-12-30 | 2020-05-19 | 电子科技大学 | 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法 |
CN111159394B (zh) * | 2019-12-31 | 2023-04-28 | 重庆觉晓科技有限公司 | 一种文本摘要生成方法和装置 |
CN111159394A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本摘要生成方法和装置 |
WO2021155699A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州科技大学 | 面向中文长文本自动摘要的全局编码方法 |
CN111708877A (zh) * | 2020-04-20 | 2020-09-25 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111708877B (zh) * | 2020-04-20 | 2023-05-09 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111797225A (zh) * | 2020-06-16 | 2020-10-20 | 北京北大软件工程股份有限公司 | 一种文本摘要生成方法和装置 |
CN111797225B (zh) * | 2020-06-16 | 2023-08-22 | 北京北大软件工程股份有限公司 | 一种文本摘要生成方法和装置 |
CN111767718A (zh) * | 2020-07-03 | 2020-10-13 | 北京邮电大学 | 一种基于弱化语法错误特征表示的中文语法错误更正方法 |
CN111858914A (zh) * | 2020-07-27 | 2020-10-30 | 湖南大学 | 一种基于句级评估的文本摘要生成方法和系统 |
RU2798362C2 (ru) * | 2020-10-06 | 2023-06-21 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и сервер для обучения нейронной сети формированию текстовой выходной последовательности |
US11984113B2 (en) | 2020-10-06 | 2024-05-14 | Direct Cursus Technology L.L.C | Method and server for training a neural network to generate a textual output sequence |
CN113300813B (zh) * | 2021-05-27 | 2022-08-30 | 中南大学 | 基于注意力的针对文本的联合信源信道方法 |
CN113300813A (zh) * | 2021-05-27 | 2021-08-24 | 中南大学 | 基于注意力的针对文本的联合信源信道方法 |
CN114610871B (zh) * | 2022-05-12 | 2022-07-08 | 北京道达天际科技有限公司 | 基于人工智能算法的情报系统建模分析方法 |
CN114610871A (zh) * | 2022-05-12 | 2022-06-10 | 北京道达天际科技有限公司 | 基于人工智能算法的情报系统建模分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110134782B (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134782A (zh) | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 | |
CN109582789B (zh) | 基于语义单元信息的文本多标签分类方法 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN110348016A (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111858931B (zh) | 一种基于深度学习的文本生成方法 | |
CN109697289B (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN109522411A (zh) | 一种基于神经网络的写作辅助方法 | |
CN110413986A (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN111581385B (zh) | 一种不平衡数据采样的中文文本类别识别系统及方法 | |
Zhou et al. | AMR parsing with action-pointer transformer | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
CN109711121A (zh) | 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN109815496A (zh) | 基于容量自适应收缩机制载体生成式文本隐写方法及装置 | |
CN110196903A (zh) | 一种用于为文章生成摘要的方法及系统 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN114647723A (zh) | 一种基于预训练软提示的少样本摘要生成方法 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
Cohn et al. | Scaling conditional random fields using error-correcting codes | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN115858736A (zh) | 一种基于情感提示微调的情感文本生成方法 | |
CN116611436A (zh) | 一种基于威胁情报的网络安全命名实体识别方法 | |
CN115630649A (zh) | 一种基于生成模型的医学中文命名实体识别方法 | |
CN111709245A (zh) | 基于语义自适应编码的汉-越伪平行句对抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |