CN113157914A - 一种基于多层循环神经网络的文档摘要提取方法及系统 - Google Patents
一种基于多层循环神经网络的文档摘要提取方法及系统 Download PDFInfo
- Publication number
- CN113157914A CN113157914A CN202110157327.XA CN202110157327A CN113157914A CN 113157914 A CN113157914 A CN 113157914A CN 202110157327 A CN202110157327 A CN 202110157327A CN 113157914 A CN113157914 A CN 113157914A
- Authority
- CN
- China
- Prior art keywords
- document
- sentence
- vector
- layer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000013135 deep learning Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 124
- 230000002457 bidirectional effect Effects 0.000 claims description 44
- 238000012512 characterization method Methods 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000013136 deep learning model Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多层循环神经网络的文档摘要提取方法及系统,包括以下步骤:步骤A:采集用于训练的文档‑句子标签对,构建文档‑句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;步骤B:使用文档‑句子标签对训练集,对用于文档摘要提取的深度学习模型进行训练;步骤C:将文档输入到训练好的深度学习网络模型中,输出文档的摘要。该方法及系统有利于提高对于文本摘要的准确精度。
Description
技术领域
本发明涉及自然语言处理与文本摘要应用领域,具体涉及一种基于多层循环神经网络的文档摘要提取方法及系统。
背景技术
随着互联网的迅速兴起和智能手机的普及,人们获取和发送信息的方式变得更加便利,互联网上的网络资源以前所未有的速度增长。互联网上的网络资源,如百度网页资源、微博用户评论、新浪新闻和简书博客等,都是文本数据的巨大来源,还有各种新闻文章、科学论文、法律文件等文本,加上一些新兴的自媒体平台,使得文本信息的呈现形式更加复杂。信息化高速发展虽然给人们带来便利,但是存在着传统信息处理技术跟不上当代信息产出速度的问题。因此,对各类文本进行汇总和压缩就显得尤为迫切和重要。
自动文本摘要是自然语言处理领域的一项重要任务,通过自动创建一个或多个文本文档的简明摘要,节省了人工总结摘要所需的大量时间。自动文本摘要可以应用在文献自动标引上,一般包括关键词标引,主题词标引和摘要标引。还可用于新闻的信息服务上,将整篇新闻精简成一个有明确标题并配有几句概述的新闻摘要,使得用户在短时间内就能了解新闻中的关键信息。自动文本摘要的研究始于1958年。Luhn通过对文本词频的统计,进而对文本中的句子进行评分,并将评分高的句子作为文本的摘要。Luhn的研究成果主要应用于自动摘录杂志和技术论文的摘要,开启了文本摘要研究的先河。从20世纪50年代至今,研究人员致力于改进文本摘要算法,使得算法能够用精简的文字涵盖输入文本的中心主题,并符合人类的预期。
早期的方法主要基于语言特征,采用统计方法分析文章的语法结构和内容,提取文本特征,从而确定句子的重要程度。这些特征包括句子的位置和长度,标题中的词语,词语出现频率以及内容特征等。Salto等人提出TF-IDF算法,通过计算文中的词在文本和语料库中出现的频率,衡量该词对于文本的重要性程度,这种思想充分利用了语料库的信息,并考虑了句子和词语之间的关系,从而获取了文档中的关键信息。20世纪九十年代末,谷歌的两位创始人Larry Page和Sergey Brin等人提出了PageRank算法判断论文的重要性,这种算法已经成功地应用在引文分析、社会网络和万维网的链接结构分析。
虽然机器学习方法的应用大大推动了文本摘要的发展,但是没有充分考虑到词语和句子间的上下文关系,无法真正读懂文章的深层语义信息。随着深度学习的发展,很多学者都使用深度学习解决文本摘要问题,利用神经网络学习词与句子之间的特征向量表示和上下文表征关系,并决定句子的重要性。Cao等人提出了一个基于递归神经网络的排序框架。该网络首先对句子进行句法解析,之后把递归神经网络与句法树相结合,学习文本中每个词、短语和句子的向量表示,最后结合神经网络学习到的向量表示与传统特征进行回归分析,评估句子的重要性。Cheng等人提出一种可以同时抽取句子和词语的抽取式文本摘要模型,通过引入基于注意力机制的内容提取器,从而学习到更丰富的句子相关性信息。Chen等人提出了一种能够获取句子级上下文的编码方式,通过从文档中选择重要的特征,获得丰富的语义表示,基于此表示提取句子,并使用强化学习的训练方法。Xiao等人提出一种针对长文本的抽取式文本摘要模型,首先通过对文档和句子分别进行编码,得到文档全局上下文表示和句子上下文表示,再使用基于LSTM的句子段嵌入方法获得当前主题的局部上下文信息,从而得到结合主题的语义表示,最后基于以上三者计算得出句子的置信度。Jadhav等人提出一种基于指针网络的交换模型,该模型利用指针网络对关键词和重要句子之间的关系进行建模,获得更准确的语义信息,再通过选择合适的句子和单词组合,得到中心意义更加明确的摘要。Zhong 等人将抽取式摘要任务转化为语义匹配问题,使用BERT预训练模型计算源文档和候选摘要之间的相似度,将达到一定相似度阈值的摘要作为最终的结果。
发明内容
本发明的目的在于提供一种基于多层循环神经网络的文档摘要提取方法及系统,有利于提高对于文本摘要提取的准确精度。
为实现上述目的,本发明的技术方案是:一种基于多层循环神经网络的文档摘要提取方法,包括以下步骤:
步骤A、采集用于训练的文档-句子标签对,构建文档-句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;
步骤B、使用文档-句子标签对训练集,对用于文档摘要提取的深度学习网络模型进行训练;
步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中,输出文档的摘要。
在本发明一实施例中,所述步骤B具体包括以下步骤:
步骤B1、遍历训练集,对训练集中的每个训练样本,重复步骤B2-B5;
步骤B2、根据预训练的词向量矩阵,对训练样本中的文档进行编码,得到文档中每个句子的初始表征向量;
步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;
步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;
步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层,根据目标损失函数loss,利用反向传播方法计算深度学习网络M中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数,则终止深度学习网络模型M的训练。
在本发明一实施例中,所述步骤B2具体包括以下步骤:
步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词,并将每个句子的长度设置为固定长度m,若经过分词与去除停用词后句子中的词语数量小于m,则填充到固定长度m,超过m则截断到固定长度m;
步骤B22、根据预训练的词向量矩阵,对步骤B21得到的文档中的每个句子进行编码,得到文档中每个句子的初始表征向量;
训练样本中的文档可表示为:
s={s1,s2,...,st,…,sn}
其中,st表示文档中的第t个句子,t=1,2,...,n,n为文档中的句子数,st可表示为:
st={wt,1,wt,2,…,wt,j,…,wt,m}
其中,wt,j为文档中第t个句子的第j个词,t=1,2,...,n,j=1,2,...,m,则st的初始表征向量可表示为:
在本发明一实施例中,所述步骤B3具体包括以下步骤:
步骤B31、对文档中的每个句子st,将st的初始表征向量输入到多层双向长短期记忆网络中进行编码,第一层双向长短期网络的前向层从左到右读取构成的词向量序列产生前向隐藏状态序列i=1,2,...m;第一层双向长短期记忆网络的反向层从右到左逆向读取构成的词向量序列产生反向隐藏状态序列 表示st中的第i个词wt,i在第一层双向长短期记忆网络的前向隐藏状态表示,表示st中的第i个词wt,i在第一层双向长短期记忆网络的反向隐藏状态表示;连接前向隐藏状态序列与反向隐藏状态序列,得到第一层双向长短期网络输出的隐藏状态序列其中[;]表示向量连接操作;
步骤B32、将第一层双向长短期网络输出的隐藏状态序列输入到第二层双向长短期记忆网络中,输出隐藏状态序列以此类推,第l 层双向长短期网络输出的隐藏状态序列作为第l+1层双向长短期网络的输入;各层双向长短期记忆网络的输出可表示为 表示st中的第i个词wt,i在第l层双向长短期记忆网络的前向隐藏状态表示,表示st中的第i个词wt,i在第l层双向长短期记忆网络的反向隐藏状态表示;
其中,αt,i是st中第i个词的注意力权重,W1,u1,b1为待训练的参数。
在本发明一实施例中,所述步骤B4具体包括以下步骤:
其中,Wq、Wk、Wv为待训练的参数;
步骤B42、选择能够整除2d1的整数h,将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量,分别得到子向量序列[q1;...;qi;...;qh],[k1;...;ki;...;kh],[v1;...;vi;...;vh],其中是q的第i个子向量,是k的第i个子向量,是v的第i个子向量,i=1,2,...h;
步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中,得到输出的子向量,计算公式如下:
Headi=softmax(Ai)vi
步骤B44、连接输出的h个子向量,并乘以参数矩阵W2,得到输出向量c,计算公式如下:
c=W2[Head1;Head2;...;Headh]
Tv=σ(uW5)
v=max(0,u+b2)W6+b3
其中,σ为sigmoid函数,max为取最大值函数,W5,W6,W7,b2,b3为待训练的参数。
在本发明一实施例中,所述步骤B5具体包括以下步骤:
步骤B52、使用负对数似然函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数loss的计算公式如下:
本发明还提供了一种基于多层循环神经网络的文档摘要提取系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
相较于现有技术,本发明具有以下有益效果:本发明提供了一种基于多层循环神经网络的文档摘要提取方法,该方法及系统基于文本-句子标签对训练用于文档摘要提取的深度学习网络模型,使用多层双向长短期记忆网络对文档中的句子进行编码,获得句子的上下文语义表征;通过使用注意力机制融合多层双向长短期记忆网络输出的隐藏状态表征,从而提取到更加丰富的句子上下文信息与语义信息;使用门控增强自注意力网络学习文档的上下文表征,充分利用门控机制的优势,控制多头注意力各部分的语义信息流向,增强了句子之间的相关性语义信息,从而更好地建模文档语义,提高了提取的摘要的准确度,具有很强的实用性和广阔的应用前景。
附图说明
图1为本发明实施例的方法实现流程图。
图2为本发明实施例的系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本发明实施例提供了一种基于多层循环神经网络的文档摘要提取方法,包括以下步骤:
步骤A、采集用于训练的文档-句子标签对,构建文档-句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;
步骤B、使用文档-句子标签对训练集,对用于文档摘要提取的深度学习网络模型进行训练;
步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中,输出文档的摘要。
所述步骤B具体包括以下步骤:
步骤B1、遍历训练集,对训练集中的每个训练样本,重复步骤B2-B5;
步骤B2、根据预训练的词向量矩阵,对训练样本中的文档进行编码,得到文档中每个句子的初始表征向量;
步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;
步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;
步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层,根据目标损失函数loss,利用反向传播方法计算深度学习网络M中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数,则终止深度学习网络模型M的训练。
所述步骤B2具体包括以下步骤:
步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词,并将每个句子的长度设置为固定长度m,若经过分词与去除停用词后句子中的词语数量小于m,则填充到固定长度m,超过m则截断到固定长度m;
步骤B22、根据预训练的词向量矩阵,对步骤B21得到的文档中的每个句子进行编码,得到文档中每个句子的初始表征向量;
训练样本中的文档可表示为:
s={s1,s2,...,st,...,sn}
其中,st表示文档中的第t个句子,t=1,2,...,n,n为文档中的句子数,st可表示为:
st={wt,1,wt,2,...,wt,j,...,wt,m}
其中,wt,j为文档中第t个句子的第j个词,t=1,2,...,n,j=1,2,...,m,则st的初始表征向量可表示为:
所述步骤B3具体包括以下步骤:
步骤B31、对文档中的每个句子st,将st的初始表征向量输入到多层双向长短期记忆网络中进行编码,第一层双向长短期网络的前向层从左到右读取构成的词向量序列产生前向隐藏状态序列i=1,2,...m;第一层双向长短期记忆网络的反向层从右到左逆向读取构成的词向量序列产生反向隐藏状态序列i=1,2,...m,表示st中的第i个词wt,i在第一层双向长短期记忆网络的前向隐藏状态表示,表示st中的第i个词wt,i在第一层双向长短期记忆网络的反向隐藏状态表示;连接前向隐藏状态序列与反向隐藏状态序列,得到第一层双向长短期网络输出的隐藏状态序列其中i=1,2,...m,[;]表示向量连接操作;
步骤B32、将第一层双向长短期网络输出的隐藏状态序列输入到第二层双向长短期记忆网络中,输出隐藏状态序列以此类推,第l 层双向长短期网络输出的隐藏状态序列作为第l+1层双向长短期网络的输入;各层双向长短期记忆网络的输出可表示为 表示st中的第i个词wt,i在第l层双向长短期记忆网络的前向隐藏状态表示,表示st中的第i个词wt,i在第l层双向长短期记忆网络的反向隐藏状态表示;
其中,αt,i是st中第i个词的注意力权重,W1,u1,b1为待训练的参数。
所述步骤B4具体包括以下步骤:
其中,Wq、Wk、Wv为待训练的参数;
步骤B42、选择能够整除2d1的整数h,将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量,分别得到子向量序列[q1;...;qi;...;qh],[k1;...;ki;...;kh],[v1;...;vi;...;vh],其中是q的第i个子向量,是k的第i个子向量,是v的第i个子向量,i=1,2,...h;
步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中,得到输出的子向量,计算公式如下:
Headi=softmax(Ai)vi
步骤B44、连接输出的h个子向量,并乘以参数矩阵W2,得到输出向量c,计算公式如下:
c=W2[Head1;Head2;...;Headh]
Tv=σ(uW5)
v=max(0,u+b2)W6+b3
所述步骤B5具体包括以下步骤:
步骤B52、使用负对数似然函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数loss的计算公式如下:
本实施例还提供了一种基于多层循环神经网络的文档摘要提取系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文方法步骤。
较佳的,如图2所示,本实施例对应包括以下功能模块:
训练集构建模块,用于采集文档内容以及句子标签,构建文档-句子标签对训练集;
预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词和并设置为固定长度;
网络训练模块,用于在预训练的词向量矩阵中查找经过预处理的文档中词的词向量,得到文档中每个句子的初始表征向量;文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;然后将文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;再经过线性分类层,得到每个句子的二分类概率,即句子是否属于该文档的摘要的概率;利用训练集中的句子标签,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;
文档摘要模块,用于利用训练好的深度学习网络模型对输入的文档进行分析处理,输出文档的摘要。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (8)
1.一种基于多层循环神经网络的文档摘要提取方法,其特征在于,包括以下步骤:
步骤A、采集用于训练的文档-句子标签对,构建文档-句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;
步骤B、使用文档-句子标签对训练集,对用于文档摘要提取的深度学习网络模型进行训练;
步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中,输出文档的摘要。
2.根据权利要求1所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1、遍历训练集,对训练集中的每个训练样本,重复步骤B2-B5;
步骤B2、根据预训练的词向量矩阵,对训练样本中的文档进行编码,得到文档中每个句子的初始表征向量;
步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;
步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;
步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层,根据目标损失函数loss,利用反向传播方法计算深度学习网络M中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数,则终止深度学习网络模型M的训练。
3.根据权利要求2所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词,并将每个句子的长度设置为固定长度m,若经过分词与去除停用词后句子中的词语数量小于m,则填充到固定长度m,超过m则截断到固定长度m;
步骤B22、根据预训练的词向量矩阵,对步骤B21得到的文档中的每个句子进行编码,得到文档中每个句子的初始表征向量;
训练样本中的文档可表示为:
s={s1,s2,...,st,...,sn}
其中,st表示文档中的第t个句子,t=1,2,...,n,n为文档中的句子数,st可表示为:
st={wt,1,wt,2,...,wt,j,...,wt,m}
其中,wt,j为文档中第t个句子的第j个词,t=1,2,...,n,j=1,2,...,m,则st的初始表征向量可表示为:
4.根据权利要求3所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B3具体包括以下步骤:
步骤B31、对文档中的每个句子st,将st的初始表征向量输入到多层双向长短期记忆网络中进行编码,第一层双向长短期网络的前向层从左到右读取构成的词向量序列产生前向隐藏状态序列第一层双向长短期记忆网络的反向层从右到左逆向读取构成的词向量序列产生反向隐藏状态序列 表示st中的第i个词wt,i在第一层双向长短期记忆网络的前向隐藏状态表示,表示st中的第i个词wt,i在第一层双向长短期记忆网络的反向隐藏状态表示;连接前向隐藏状态序列与反向隐藏状态序列,得到第一层双向长短期网络输出的隐藏状态序列其中[;]表示向量连接操作;
步骤B32、将第一层双向长短期网络输出的隐藏状态序列输入到第二层双向长短期记忆网络中,输出隐藏状态序列以此类推,第l层双向长短期网络输出的隐藏状态序列作为第l+1层双向长短期网络的输入;各层双向长短期记忆网络的输出可表示为 表示st中的第i个词wt,i在第l层双向长短期记忆网络的前向隐藏状态表示,表示st中的第i个词wt,i在第l层双向长短期记忆网络的反向隐藏状态表示;
其中,Wt l为待训练的参数;
其中,αt,i是st中第i个词的注意力权重,W1,u1,b1为待训练的参数。
5.根据权利要求4所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B4具体包括以下步骤:
其中,Wq、Wk、Wv为待训练的参数;
步骤B42、选择能够整除2d1的整数h,将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量,分别得到子向量序列[q1;...;qi;...;qh],[k1;...;ki;...;kh],[v1;...;vi;...;vh],其中是q的第i个子向量,是k的第i个子向量,是v的第i个子向量,i=1,2,...h;
步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中,得到输出的子向量,计算公式如下:
Headi=softmax(Ai)vi
步骤B44、连接输出的h个子向量,并乘以参数矩阵W2,得到输出向量c,计算公式如下:
c=W2[Head1;Head2;...;Headh]
其中,σ为sigmoid函数,layerNorm为层归一化,W3、W4为待训练的参数;
Tv=σ(uW5)
v=max(0,u+b2)W6+b3
其中,σ为sigmoid函数,max为取最大值函数,W5,W6,W7,b2,b3为待训练的参数。
6.根据权利要求5所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B5具体包括以下步骤:
步骤B52、使用负对数似然函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数loss的计算公式如下:
7.一种基于多层循环神经网络的文档摘要提取系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6所述的方法步骤。
8.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157327.XA CN113157914B (zh) | 2021-02-04 | 2021-02-04 | 一种基于多层循环神经网络的文档摘要提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157327.XA CN113157914B (zh) | 2021-02-04 | 2021-02-04 | 一种基于多层循环神经网络的文档摘要提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113157914A true CN113157914A (zh) | 2021-07-23 |
CN113157914B CN113157914B (zh) | 2022-06-14 |
Family
ID=76882763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157327.XA Active CN113157914B (zh) | 2021-02-04 | 2021-02-04 | 一种基于多层循环神经网络的文档摘要提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157914B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399757A (zh) * | 2022-01-13 | 2022-04-26 | 福州大学 | 多路并行位置关联网络的自然场景文本识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030079185A1 (en) * | 1998-10-09 | 2003-04-24 | Sanjeev Katariya | Method and system for generating a document summary |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN110134780A (zh) * | 2018-02-08 | 2019-08-16 | 株式会社理光 | 文档摘要的生成方法、装置、设备、计算机可读存储介质 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN111177366A (zh) * | 2019-12-30 | 2020-05-19 | 北京航空航天大学 | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 |
-
2021
- 2021-02-04 CN CN202110157327.XA patent/CN113157914B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030079185A1 (en) * | 1998-10-09 | 2003-04-24 | Sanjeev Katariya | Method and system for generating a document summary |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN110134780A (zh) * | 2018-02-08 | 2019-08-16 | 株式会社理光 | 文档摘要的生成方法、装置、设备、计算机可读存储介质 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN111177366A (zh) * | 2019-12-30 | 2020-05-19 | 北京航空航天大学 | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
徐馨韬等: "基于改进TextRank算法的中文文本摘要提取", 《计算机工程》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399757A (zh) * | 2022-01-13 | 2022-04-26 | 福州大学 | 多路并行位置关联网络的自然场景文本识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113157914B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN112257453A (zh) | 融合关键词和语义特征的汉越文本相似度计算方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
Zhang et al. | Research on keyword extraction of Word2vec model in Chinese corpus | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Zhang et al. | Disease prediction and early intervention system based on symptom similarity analysis | |
CN113869054B (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN114564953A (zh) | 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 | |
CN113157914B (zh) | 一种基于多层循环神经网络的文档摘要提取方法及系统 | |
Xu et al. | Short text classification of chinese with label information assisting | |
Purba et al. | Document level emotion detection from bangla text using machine learning techniques | |
Jing et al. | Chinese text sentiment analysis based on transformer model | |
Putra et al. | Textual Entailment Technique for the Bahasa Using BiLSTM | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
CN113901172A (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 | |
CN112347251A (zh) | 一种基于注意力机制和双向lstm方面情感分析系统 | |
Yan | Research on keyword extraction based on abstract extraction | |
CN113157855B (zh) | 一种融合语义与上下文信息的文本摘要方法及系统 | |
Yao et al. | Chinese long text summarization using improved sequence-to-sequence lstm | |
CN118227744B (zh) | 一种虚假新闻检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |