CN113157914B - 一种基于多层循环神经网络的文档摘要提取方法及系统 - Google Patents

一种基于多层循环神经网络的文档摘要提取方法及系统 Download PDF

Info

Publication number
CN113157914B
CN113157914B CN202110157327.XA CN202110157327A CN113157914B CN 113157914 B CN113157914 B CN 113157914B CN 202110157327 A CN202110157327 A CN 202110157327A CN 113157914 B CN113157914 B CN 113157914B
Authority
CN
China
Prior art keywords
document
sentence
vector
layer
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110157327.XA
Other languages
English (en)
Other versions
CN113157914A (zh
Inventor
陈羽中
张斯巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110157327.XA priority Critical patent/CN113157914B/zh
Publication of CN113157914A publication Critical patent/CN113157914A/zh
Application granted granted Critical
Publication of CN113157914B publication Critical patent/CN113157914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多层循环神经网络的文档摘要提取方法及系统,包括以下步骤:步骤A:采集用于训练的文档‑句子标签对,构建文档‑句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;步骤B:使用文档‑句子标签对训练集,对用于文档摘要提取的深度学习模型进行训练;步骤C:将文档输入到训练好的深度学习网络模型中,输出文档的摘要。该方法及系统有利于提高对于文本摘要的准确精度。

Description

一种基于多层循环神经网络的文档摘要提取方法及系统
技术领域
本发明涉及自然语言处理与文本摘要应用领域,具体涉及一种基于多层循环神经网络的文档摘要提取方法及系统。
背景技术
随着互联网的迅速兴起和智能手机的普及,人们获取和发送信息的方式变得更加便利,互联网上的网络资源以前所未有的速度增长。互联网上的网络资源,如百度网页资源、微博用户评论、新浪新闻和简书博客等,都是文本数据的巨大来源,还有各种新闻文章、科学论文、法律文件等文本,加上一些新兴的自媒体平台,使得文本信息的呈现形式更加复杂。信息化高速发展虽然给人们带来便利,但是存在着传统信息处理技术跟不上当代信息产出速度的问题。因此,对各类文本进行汇总和压缩就显得尤为迫切和重要。
自动文本摘要是自然语言处理领域的一项重要任务,通过自动创建一个或多个文本文档的简明摘要,节省了人工总结摘要所需的大量时间。自动文本摘要可以应用在文献自动标引上,一般包括关键词标引,主题词标引和摘要标引。还可用于新闻的信息服务上,将整篇新闻精简成一个有明确标题并配有几句概述的新闻摘要,使得用户在短时间内就能了解新闻中的关键信息。自动文本摘要的研究始于1958年。Luhn通过对文本词频的统计,进而对文本中的句子进行评分,并将评分高的句子作为文本的摘要。Luhn的研究成果主要应用于自动摘录杂志和技术论文的摘要,开启了文本摘要研究的先河。从20世纪50年代至今,研究人员致力于改进文本摘要算法,使得算法能够用精简的文字涵盖输入文本的中心主题,并符合人类的预期。
早期的方法主要基于语言特征,采用统计方法分析文章的语法结构和内容,提取文本特征,从而确定句子的重要程度。这些特征包括句子的位置和长度,标题中的词语,词语出现频率以及内容特征等。Salto等人提出TF-IDF算法,通过计算文中的词在文本和语料库中出现的频率,衡量该词对于文本的重要性程度,这种思想充分利用了语料库的信息,并考虑了句子和词语之间的关系,从而获取了文档中的关键信息。20世纪九十年代末,谷歌的两位创始人Larry Page和Sergey Brin等人提出了PageRank算法判断论文的重要性,这种算法已经成功地应用在引文分析、社会网络和万维网的链接结构分析。
虽然机器学习方法的应用大大推动了文本摘要的发展,但是没有充分考虑到词语和句子间的上下文关系,无法真正读懂文章的深层语义信息。随着深度学习的发展,很多学者都使用深度学习解决文本摘要问题,利用神经网络学习词与句子之间的特征向量表示和上下文表征关系,并决定句子的重要性。Cao等人提出了一个基于递归神经网络的排序框架。该网络首先对句子进行句法解析,之后把递归神经网络与句法树相结合,学习文本中每个词、短语和句子的向量表示,最后结合神经网络学习到的向量表示与传统特征进行回归分析,评估句子的重要性。Cheng等人提出一种可以同时抽取句子和词语的抽取式文本摘要模型,通过引入基于注意力机制的内容提取器,从而学习到更丰富的句子相关性信息。Chen等人提出了一种能够获取句子级上下文的编码方式,通过从文档中选择重要的特征,获得丰富的语义表示,基于此表示提取句子,并使用强化学习的训练方法。Xiao等人提出一种针对长文本的抽取式文本摘要模型,首先通过对文档和句子分别进行编码,得到文档全局上下文表示和句子上下文表示,再使用基于LSTM的句子段嵌入方法获得当前主题的局部上下文信息,从而得到结合主题的语义表示,最后基于以上三者计算得出句子的置信度。Jadhav等人提出一种基于指针网络的交换模型,该模型利用指针网络对关键词和重要句子之间的关系进行建模,获得更准确的语义信息,再通过选择合适的句子和单词组合,得到中心意义更加明确的摘要。Zhong 等人将抽取式摘要任务转化为语义匹配问题,使用BERT预训练模型计算源文档和候选摘要之间的相似度,将达到一定相似度阈值的摘要作为最终的结果。
发明内容
本发明的目的在于提供一种基于多层循环神经网络的文档摘要提取方法及系统,有利于提高对于文本摘要提取的准确精度。
为实现上述目的,本发明的技术方案是:一种基于多层循环神经网络的文档摘要提取方法,包括以下步骤:
步骤A、采集用于训练的文档-句子标签对,构建文档-句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;
步骤B、使用文档-句子标签对训练集,对用于文档摘要提取的深度学习网络模型进行训练;
步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中,输出文档的摘要。
在本发明一实施例中,所述步骤B具体包括以下步骤:
步骤B1、遍历训练集,对训练集中的每个训练样本,重复步骤B2-B5;
步骤B2、根据预训练的词向量矩阵,对训练样本中的文档进行编码,得到文档中每个句子的初始表征向量;
步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;
步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;
步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层,根据目标损失函数loss,利用反向传播方法计算深度学习网络M中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数,则终止深度学习网络模型M的训练。
在本发明一实施例中,所述步骤B2具体包括以下步骤:
步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词,并将每个句子的长度设置为固定长度m,若经过分词与去除停用词后句子中的词语数量小于m,则填充到固定长度m,超过m则截断到固定长度m;
步骤B22、根据预训练的词向量矩阵,对步骤B21得到的文档中的每个句子进行编码,得到文档中每个句子的初始表征向量;
训练样本中的文档可表示为:
s={s1,s2,...,st,…,sn}
其中,st表示文档中的第t个句子,t=1,2,...,n,n为文档中的句子数,st可表示为:
st={wt,1,wt,2,…,wt,j,…,wt,m}
其中,wt,j为文档中第t个句子的第j个词,t=1,2,...,n,j=1,2,...,m,则st的初始表征向量可表示为:
Figure RE-GDA0003048958940000031
其中,
Figure RE-GDA0003048958940000032
为句子st的初始表征向量,
Figure RE-GDA0003048958940000033
为文档s中第t个句子的第j个词wt,j所对应的词向量,在预训练的词向量矩阵
Figure RE-GDA0003048958940000034
中查找得到,其中d表示词向量的维度, |V|是词典V中的词语数。
在本发明一实施例中,所述步骤B3具体包括以下步骤:
步骤B31、对文档中的每个句子st,将st的初始表征向量
Figure RE-GDA0003048958940000035
输入到多层双向长短期记忆网络中进行编码,第一层双向长短期网络的前向层从左到右读取构成
Figure RE-GDA0003048958940000036
的词向量序列
Figure RE-GDA0003048958940000041
产生前向隐藏状态序列
Figure RE-GDA0003048958940000042
i=1,2,...m;第一层双向长短期记忆网络的反向层从右到左逆向读取构成
Figure RE-GDA0003048958940000043
的词向量序列
Figure RE-GDA0003048958940000044
产生反向隐藏状态序列
Figure RE-GDA0003048958940000045
Figure RE-GDA0003048958940000046
表示st中的第i个词wt,i在第一层双向长短期记忆网络的前向隐藏状态表示,
Figure RE-GDA0003048958940000047
表示st中的第i个词wt,i在第一层双向长短期记忆网络的反向隐藏状态表示;连接前向隐藏状态序列与反向隐藏状态序列,得到第一层双向长短期网络输出的隐藏状态序列
Figure RE-GDA0003048958940000048
其中
Figure RE-GDA0003048958940000049
[;]表示向量连接操作;
步骤B32、将第一层双向长短期网络输出的隐藏状态序列
Figure RE-GDA00030489589400000410
输入到第二层双向长短期记忆网络中,输出隐藏状态序列
Figure RE-GDA00030489589400000411
以此类推,第l 层双向长短期网络输出的隐藏状态序列
Figure RE-GDA00030489589400000412
作为第l+1层双向长短期网络的输入;各层双向长短期记忆网络的输出可表示为
Figure RE-GDA00030489589400000413
Figure RE-GDA00030489589400000414
Figure RE-GDA00030489589400000415
表示st中的第i个词wt,i在第l层双向长短期记忆网络的前向隐藏状态表示,
Figure RE-GDA00030489589400000416
表示st中的第i个词wt,i在第l层双向长短期记忆网络的反向隐藏状态表示;
步骤B33、将步骤B32得到的各层双向长短期记忆网络的隐藏状态表示
Figure RE-GDA00030489589400000417
输入线性层,学习各层输出的隐藏状态表示
Figure RE-GDA00030489589400000418
的权重,得到st的表征向量
Figure RE-GDA00030489589400000419
Figure RE-GDA00030489589400000420
计算公式如下:
Figure RE-GDA00030489589400000421
其中,
Figure RE-GDA00030489589400000422
为待训练的参数;
步骤B34、将步骤B33得到的st的表征向量
Figure RE-GDA00030489589400000423
输入到注意力网络中,计算st中词语之间的注意力权重分布,可得到st的上下文表征向量
Figure RE-GDA00030489589400000424
计算公式如下:
Figure RE-GDA00030489589400000425
Figure RE-GDA0003048958940000051
Figure RE-GDA0003048958940000052
其中,αt,i是st中第i个词的注意力权重,W1,u1,b1为待训练的参数。
在本发明一实施例中,所述步骤B4具体包括以下步骤:
步骤B41、将文档中每个句子的上下文表征向量构成的向量矩阵
Figure RE-GDA0003048958940000053
分别乘以权重矩阵Wq、Wk、Wv,得到作为多头注意力机制输入的表征向量
Figure RE-GDA0003048958940000054
Figure RE-GDA0003048958940000055
计算公式如下:
Figure RE-GDA0003048958940000056
Figure RE-GDA0003048958940000057
Figure RE-GDA0003048958940000058
其中,Wq、Wk、Wv为待训练的参数;
步骤B42、选择能够整除2d1的整数h,将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量,分别得到子向量序列[q1;...;qi;...;qh],[k1;...;ki;...;kh],[v1;...;vi;...;vh],其中
Figure RE-GDA0003048958940000059
是q的第i个子向量,
Figure RE-GDA00030489589400000510
是k的第i个子向量,
Figure RE-GDA00030489589400000511
是v的第i个子向量,i=1,2,...h;
步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中,得到输出的子向量,计算公式如下:
Figure RE-GDA00030489589400000512
Headi=softmax(Ai)vi
其中,Ai∈Rn×n,i=1,2,...h为注意力相似性权重矩阵,
Figure RE-GDA00030489589400000513
为多头注意力机制输出的第i个子向量;
步骤B44、连接输出的h个子向量,并乘以参数矩阵W2,得到输出向量c,计算公式如下:
c=W2[Head1;Head2;...;Headh]
其中,
Figure RE-GDA0003048958940000061
[;]表示向量连接操作,W2为待训练的参数矩阵;
步骤B45、将步骤B41得到的向量矩阵
Figure RE-GDA0003048958940000062
和步骤B44得到的输出向量c,依次经过非线性层、残差连接、层归一化后,得到向量
Figure RE-GDA0003048958940000063
计算公式如下:
Figure RE-GDA0003048958940000064
Figure RE-GDA0003048958940000065
其中,σ为sigmoid函数,layerNorm为层归一化,
Figure RE-GDA0003048958940000066
为待训练的参数;
步骤B46、将步骤B45得到的向量u,依次经过非线性层、全连接前馈神经网络层、残差连接、层归一化后,获得文档的上下文表征向量
Figure RE-GDA0003048958940000067
计算公式如下:
Tv=σ(uW5)
v=max(0,u+b2)W6+b3
Figure RE-GDA0003048958940000068
其中,σ为sigmoid函数,max为取最大值函数,W5,W6,W7,b2,b3为待训练的参数。
在本发明一实施例中,所述步骤B5具体包括以下步骤:
步骤B51、将得到的文档上下文表征向量
Figure RE-GDA0003048958940000069
输入到线性分类层中,以预测是否选择句子,计算公式如下:
Figure RE-GDA00030489589400000610
其中,yj为句子j的标签,是一个二进制变量,指示第j个句子是否为摘要句,
Figure RE-GDA00030489589400000611
为对应第j个句子的表征向量,W8为待训练的参数,σ为sigmoid激活函数;
步骤B52、使用负对数似然函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数loss的计算公式如下:
Figure RE-GDA00030489589400000612
其中,N表示文档数量,n为文档中句子数量,
Figure RE-GDA00030489589400000613
表示第i个文档中第j个句子的标签,即
Figure RE-GDA00030489589400000614
代表第i个文档中中第j个句子属于摘要的概率。
本发明还提供了一种基于多层循环神经网络的文档摘要提取系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
相较于现有技术,本发明具有以下有益效果:本发明提供了一种基于多层循环神经网络的文档摘要提取方法,该方法及系统基于文本-句子标签对训练用于文档摘要提取的深度学习网络模型,使用多层双向长短期记忆网络对文档中的句子进行编码,获得句子的上下文语义表征;通过使用注意力机制融合多层双向长短期记忆网络输出的隐藏状态表征,从而提取到更加丰富的句子上下文信息与语义信息;使用门控增强自注意力网络学习文档的上下文表征,充分利用门控机制的优势,控制多头注意力各部分的语义信息流向,增强了句子之间的相关性语义信息,从而更好地建模文档语义,提高了提取的摘要的准确度,具有很强的实用性和广阔的应用前景。
附图说明
图1为本发明实施例的方法实现流程图。
图2为本发明实施例的系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本发明实施例提供了一种基于多层循环神经网络的文档摘要提取方法,包括以下步骤:
步骤A、采集用于训练的文档-句子标签对,构建文档-句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;
步骤B、使用文档-句子标签对训练集,对用于文档摘要提取的深度学习网络模型进行训练;
步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中,输出文档的摘要。
所述步骤B具体包括以下步骤:
步骤B1、遍历训练集,对训练集中的每个训练样本,重复步骤B2-B5;
步骤B2、根据预训练的词向量矩阵,对训练样本中的文档进行编码,得到文档中每个句子的初始表征向量;
步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;
步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;
步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层,根据目标损失函数loss,利用反向传播方法计算深度学习网络M中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数,则终止深度学习网络模型M的训练。
所述步骤B2具体包括以下步骤:
步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词,并将每个句子的长度设置为固定长度m,若经过分词与去除停用词后句子中的词语数量小于m,则填充到固定长度m,超过m则截断到固定长度m;
步骤B22、根据预训练的词向量矩阵,对步骤B21得到的文档中的每个句子进行编码,得到文档中每个句子的初始表征向量;
训练样本中的文档可表示为:
s={s1,s2,...,st,...,sn}
其中,st表示文档中的第t个句子,t=1,2,...,n,n为文档中的句子数,st可表示为:
st={wt,1,wt,2,...,wt,j,...,wt,m}
其中,wt,j为文档中第t个句子的第j个词,t=1,2,...,n,j=1,2,...,m,则st的初始表征向量可表示为:
Figure RE-GDA0003048958940000081
其中,
Figure RE-GDA0003048958940000091
为句子st的初始表征向量,
Figure RE-GDA0003048958940000092
为文档s中第t个句子的第j个词wt,j所对应的词向量,在预训练的词向量矩阵
Figure RE-GDA0003048958940000093
中查找得到,其中d表示词向量的维度, |V|是词典V中的词语数。
所述步骤B3具体包括以下步骤:
步骤B31、对文档中的每个句子st,将st的初始表征向量
Figure RE-GDA0003048958940000094
输入到多层双向长短期记忆网络中进行编码,第一层双向长短期网络的前向层从左到右读取构成
Figure RE-GDA0003048958940000095
的词向量序列
Figure RE-GDA0003048958940000096
产生前向隐藏状态序列
Figure RE-GDA0003048958940000097
i=1,2,...m;第一层双向长短期记忆网络的反向层从右到左逆向读取构成
Figure RE-GDA0003048958940000098
的词向量序列
Figure RE-GDA0003048958940000099
产生反向隐藏状态序列
Figure RE-GDA00030489589400000910
i=1,2,...m,
Figure RE-GDA00030489589400000911
表示st中的第i个词wt,i在第一层双向长短期记忆网络的前向隐藏状态表示,
Figure RE-GDA00030489589400000912
表示st中的第i个词wt,i在第一层双向长短期记忆网络的反向隐藏状态表示;连接前向隐藏状态序列与反向隐藏状态序列,得到第一层双向长短期网络输出的隐藏状态序列
Figure RE-GDA00030489589400000913
其中
Figure RE-GDA00030489589400000914
i=1,2,...m,[;]表示向量连接操作;
步骤B32、将第一层双向长短期网络输出的隐藏状态序列
Figure RE-GDA00030489589400000915
输入到第二层双向长短期记忆网络中,输出隐藏状态序列
Figure RE-GDA00030489589400000916
以此类推,第l 层双向长短期网络输出的隐藏状态序列
Figure RE-GDA00030489589400000917
作为第l+1层双向长短期网络的输入;各层双向长短期记忆网络的输出可表示为
Figure RE-GDA00030489589400000918
Figure RE-GDA00030489589400000919
Figure RE-GDA00030489589400000920
表示st中的第i个词wt,i在第l层双向长短期记忆网络的前向隐藏状态表示,
Figure RE-GDA00030489589400000921
表示st中的第i个词wt,i在第l层双向长短期记忆网络的反向隐藏状态表示;
步骤B33、将步骤B32得到的各层双向长短期记忆网络的隐藏状态表示
Figure RE-GDA00030489589400000922
输入线性层,学习各层输出的隐藏状态表示
Figure RE-GDA00030489589400000923
的权重,得到st的表征向量
Figure RE-GDA00030489589400000924
计算公式如下:
Figure RE-GDA0003048958940000101
其中,
Figure RE-GDA0003048958940000102
为待训练的参数;
步骤B34、将步骤B33得到的st的表征向量
Figure RE-GDA0003048958940000103
输入到注意力网络中,计算st中词语之间的注意力权重分布,可得到st的上下文表征向量
Figure RE-GDA0003048958940000104
计算公式如下:
Figure RE-GDA0003048958940000105
Figure RE-GDA0003048958940000106
Figure RE-GDA0003048958940000107
其中,αt,i是st中第i个词的注意力权重,W1,u1,b1为待训练的参数。
所述步骤B4具体包括以下步骤:
步骤B41、将文档中每个句子的上下文表征向量构成的向量矩阵
Figure RE-GDA0003048958940000108
分别乘以权重矩阵Wq、Wk、Wv,得到作为多头注意力机制输入的表征向量q、k、v,计算公式如下:
Figure RE-GDA0003048958940000109
Figure RE-GDA00030489589400001010
Figure RE-GDA00030489589400001011
其中,Wq、Wk、Wv为待训练的参数;
步骤B42、选择能够整除2d1的整数h,将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量,分别得到子向量序列[q1;...;qi;...;qh],[k1;...;ki;...;kh],[v1;...;vi;...;vh],其中
Figure RE-GDA00030489589400001012
是q的第i个子向量,
Figure RE-GDA00030489589400001013
是k的第i个子向量,
Figure RE-GDA00030489589400001014
是v的第i个子向量,i=1,2,...h;
步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中,得到输出的子向量,计算公式如下:
Figure RE-GDA00030489589400001015
Headi=softmax(Ai)vi
其中,Ai∈Rn×n,i=1,2,...h为注意力相似性权重矩阵,
Figure RE-GDA0003048958940000111
为多头注意力机制输出的第i个子向量;
步骤B44、连接输出的h个子向量,并乘以参数矩阵W2,得到输出向量c,计算公式如下:
c=W2[Head1;Head2;...;Headh]
其中,
Figure RE-GDA0003048958940000112
[;]表示向量连接操作,W2为待训练的参数矩阵;
步骤B45、将步骤B41得到的向量矩阵
Figure RE-GDA0003048958940000113
和步骤B44得到的输出向量c 输入到门控增强单元中,得到向量
Figure RE-GDA0003048958940000114
计算公式如下:
Figure RE-GDA0003048958940000115
Figure RE-GDA0003048958940000116
其中,σ为sigmoid函数,layerNorm为层归一化,
Figure RE-GDA0003048958940000117
为待训练的参数;
步骤B46、将步骤B45得到的向量u输入到门控增强全连接层中,获得文档的上下文表征向量
Figure RE-GDA0003048958940000118
计算公式如下:
Tv=σ(uW5)
v=max(0,u+b2)W6+b3
Figure RE-GDA0003048958940000119
其中,σ为sigmoid函数,max为取最大值函数,
Figure RE-GDA00030489589400001110
Figure RE-GDA00030489589400001111
为待训练的参数。
所述步骤B5具体包括以下步骤:
步骤B51、将得到的文档上下文表征向量
Figure RE-GDA00030489589400001112
输入到线性分类层中,以预测是否选择句子,计算公式如下:
Figure RE-GDA00030489589400001113
其中,yj为句子j的标签,是一个二进制变量,指示第j个句子是否为摘要句,
Figure RE-GDA00030489589400001114
为对应第j个句子的表征向量,W8为待训练的参数,σ为sigmoid激活函数;
步骤B52、使用负对数似然函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数loss的计算公式如下:
Figure RE-GDA0003048958940000121
其中,N表示文档数量,n为文档中句子数量,
Figure RE-GDA0003048958940000122
表示第i个文档中第j个句子的标签,即
Figure RE-GDA0003048958940000123
代表第i个文档中中第j个句子属于摘要的概率。
本实施例还提供了一种基于多层循环神经网络的文档摘要提取系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文方法步骤。
较佳的,如图2所示,本实施例对应包括以下功能模块:
训练集构建模块,用于采集文档内容以及句子标签,构建文档-句子标签对训练集;
预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词和并设置为固定长度;
网络训练模块,用于在预训练的词向量矩阵中查找经过预处理的文档中词的词向量,得到文档中每个句子的初始表征向量;文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;然后将文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;再经过线性分类层,得到每个句子的二分类概率,即句子是否属于该文档的摘要的概率;利用训练集中的句子标签,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;
文档摘要模块,用于利用训练好的深度学习网络模型对输入的文档进行分析处理,输出文档的摘要。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (6)

1.一种基于多层循环神经网络的文档摘要提取方法,其特征在于,包括以下步骤:
步骤A、采集用于训练的文档-句子标签对,构建文档-句子标签对训练集,每条训练样本包括文档与文档中每条句子的标签;句子的标签值为1代表该句子属于摘要,标签值为0代表该句子不属于摘要;
步骤B、使用文档-句子标签对训练集,对用于文档摘要提取的深度学习网络模型进行训练;
步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中,输出文档的摘要;
所述步骤B具体包括以下步骤:
步骤B1、遍历训练集,对训练集中的每个训练样本,重复步骤B2-B5;
步骤B2、根据预训练的词向量矩阵,对训练样本中的文档进行编码,得到文档中每个句子的初始表征向量;
步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中,得到文档中每个句子的上下文表征向量;
步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中,得到文档的上下文表征向量;
步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层,根据目标损失函数loss,利用反向传播方法计算深度学习网络M中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数,则终止深度学习网络模型M的训练;
所述步骤B4具体包括以下步骤:
步骤B41、将文档中每个句子的上下文表征向量构成的向量矩阵
Figure FDA0003591456020000011
分别乘以权重矩阵Wq、Wk、Wv,得到作为多头注意力机制输入的表征向量
Figure FDA0003591456020000012
Figure FDA0003591456020000013
计算公式如下:
Figure FDA0003591456020000014
Figure FDA0003591456020000015
Figure FDA0003591456020000016
其中,Wq、Wk、Wv为待训练的参数;
步骤B42、选择能够整除2d1的整数h,将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量,分别得到子向量序列[q1;...;qi;...;qh],[k1;...;ki;...;kh],[v1;...;vi;...;vh],其中
Figure FDA0003591456020000021
是q的第i个子向量,
Figure FDA0003591456020000022
是k的第i个子向量,
Figure FDA0003591456020000023
是v的第i个子向量,i=1,2,...h;
步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中,得到输出的子向量,计算公式如下:
Figure FDA0003591456020000024
Headi=softmax(Ai)vi
其中,Ai∈Rn×n,i=1,2,...h为注意力相似性权重矩阵,
Figure FDA0003591456020000025
为多头注意力机制输出的第i个子向量;
步骤B44、连接输出的h个子向量,并乘以参数矩阵W2,得到输出向量c,计算公式如下:
c=W2[Head1;Head2;...;Headh]
其中,
Figure FDA0003591456020000026
[;]表示向量连接操作,W2为待训练的参数矩阵;
步骤B45、将步骤B41得到的向量矩阵
Figure FDA0003591456020000027
和步骤B44得到的输出向量c,依次经过非线性层、残差连接、层归一化后,得到向量
Figure FDA0003591456020000028
计算公式如下:
Figure FDA0003591456020000029
Figure FDA00035914560200000210
其中,σ为sigmoid函数,layerNorm为层归一化,W3、W4为待训练的参数;
步骤B46、将步骤B45得到的向量u,依次经过非线性层、全连接前馈神经网络层、残差连接、层归一化后,获得文档的上下文表征向量
Figure FDA00035914560200000211
计算公式如下:
Tv=σ(uW5)
v=max(0,u+b2)W6+b3
Figure FDA00035914560200000212
其中,σ为sigmoid函数,max为取最大值函数,W5,W6,W7,b2,b3为待训练的参数。
2.根据权利要求1所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词,并将每个句子的长度设置为固定长度m,若经过分词与去除停用词后句子中的词语数量小于m,则填充到固定长度m,超过m则截断到固定长度m;
步骤B22、根据预训练的词向量矩阵,对步骤B21得到的文档中的每个句子进行编码,得到文档中每个句子的初始表征向量;
训练样本中的文档可表示为:
s={s1,s2,...,st,...,sn}
其中,st表示文档中的第t个句子,t=1,2,...,n,n为文档中的句子数,st可表示为:
st={wt,1,wt,2,...,wt,j,...,wt,m}
其中,wt,j为文档中第t个句子的第j个词,t=1,2,...,n,j=1,2,...,m,则st的初始表征向量可表示为:
Figure FDA0003591456020000031
其中,
Figure FDA0003591456020000032
为句子st的初始表征向量,
Figure FDA0003591456020000033
为文档s中第t个句子的第j个词wt,j所对应的词向量,在预训练的词向量矩阵
Figure FDA0003591456020000034
中查找得到,其中d表示词向量的维度,|V|是词典V中的词语数。
3.根据权利要求2所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B3具体包括以下步骤:
步骤B31、对文档中的每个句子st,将st的初始表征向量
Figure FDA0003591456020000035
输入到多层双向长短期记忆网络中进行编码,第一层双向长短期网络的前向层从左到右读取构成
Figure FDA0003591456020000036
的词向量序列
Figure FDA0003591456020000037
产生前向隐藏状态序列
Figure FDA0003591456020000038
第一层双向长短期记忆网络的反向层从右到左逆向读取构成
Figure FDA0003591456020000039
的词向量序列
Figure FDA00035914560200000310
产生反向隐藏状态序列
Figure FDA00035914560200000311
Figure FDA00035914560200000312
表示st中的第i个词wt,i在第一层双向长短期记忆网络的前向隐藏状态表示,
Figure FDA0003591456020000041
表示st中的第i个词wt,i在第一层双向长短期记忆网络的反向隐藏状态表示;连接前向隐藏状态序列与反向隐藏状态序列,得到第一层双向长短期网络输出的隐藏状态序列
Figure FDA0003591456020000042
其中
Figure FDA0003591456020000043
[;]表示向量连接操作;
步骤B32、将第一层双向长短期网络输出的隐藏状态序列
Figure FDA0003591456020000044
输入到第二层双向长短期记忆网络中,输出隐藏状态序列
Figure FDA0003591456020000045
以此类推,第l层双向长短期网络输出的隐藏状态序列
Figure FDA0003591456020000046
作为第l+1层双向长短期网络的输入;各层双向长短期记忆网络的输出可表示为
Figure FDA0003591456020000047
Figure FDA0003591456020000048
Figure FDA0003591456020000049
表示st中的第i个词wt,i在第l层双向长短期记忆网络的前向隐藏状态表示,
Figure FDA00035914560200000410
表示st中的第i个词wt,i在第l层双向长短期记忆网络的反向隐藏状态表示;
步骤B33、将步骤B32得到的各层双向长短期记忆网络的隐藏状态表示
Figure FDA00035914560200000411
输入线性层,学习各层输出的隐藏状态表示
Figure FDA00035914560200000412
的权重,得到st的表征向量
Figure FDA00035914560200000413
Figure FDA00035914560200000414
计算公式如下:
Figure FDA00035914560200000415
其中,Wt l为待训练的参数;
步骤B34、将步骤B33得到的st的表征向量
Figure FDA00035914560200000416
输入到注意力网络中,计算st中词语之间的注意力权重分布,可得到st的上下文表征向量
Figure FDA00035914560200000417
计算公式如下:
Figure FDA00035914560200000418
Figure FDA00035914560200000419
Figure FDA00035914560200000420
其中,αt,i是st中第i个词的注意力权重,W1,u1,b1为待训练的参数。
4.根据权利要求1所述的一种基于多层循环神经网络的文档摘要提取方法,其特征在于,所述步骤B5具体包括以下步骤:
步骤B51、将得到的文档上下文表征向量
Figure FDA0003591456020000051
输入到线性分类层中,以预测是否选择句子,计算公式如下:
Figure FDA0003591456020000052
其中,yj为句子j的标签,是一个二进制变量,指示第j个句子是否为摘要句,
Figure FDA0003591456020000053
为对应第j个句子的表征向量,Wp为待训练的参数,σ为sigmoid激活函数;
步骤B52、使用负对数似然函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数loss的计算公式如下:
Figure FDA0003591456020000054
其中,N表示训练集中的文档数量,n为一个文档中的句子数量,
Figure FDA0003591456020000055
表示第i个文档中第j个句子的标签,即
Figure FDA0003591456020000056
代表第i个文档中第j个句子属于摘要的概率。
5.一种基于多层循环神经网络的文档摘要提取系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-4任一项所述的方法步骤。
6.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-4任一项所述的方法步骤。
CN202110157327.XA 2021-02-04 2021-02-04 一种基于多层循环神经网络的文档摘要提取方法及系统 Active CN113157914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110157327.XA CN113157914B (zh) 2021-02-04 2021-02-04 一种基于多层循环神经网络的文档摘要提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110157327.XA CN113157914B (zh) 2021-02-04 2021-02-04 一种基于多层循环神经网络的文档摘要提取方法及系统

Publications (2)

Publication Number Publication Date
CN113157914A CN113157914A (zh) 2021-07-23
CN113157914B true CN113157914B (zh) 2022-06-14

Family

ID=76882763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110157327.XA Active CN113157914B (zh) 2021-02-04 2021-02-04 一种基于多层循环神经网络的文档摘要提取方法及系统

Country Status (1)

Country Link
CN (1) CN113157914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN110134780A (zh) * 2018-02-08 2019-08-16 株式会社理光 文档摘要的生成方法、装置、设备、计算机可读存储介质
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111177366A (zh) * 2019-12-30 2020-05-19 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN110134780A (zh) * 2018-02-08 2019-08-16 株式会社理光 文档摘要的生成方法、装置、设备、计算机可读存储介质
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111177366A (zh) * 2019-12-30 2020-05-19 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进TextRank算法的中文文本摘要提取;徐馨韬等;《计算机工程》;20190315;第45卷(第3期);全文 *

Also Published As

Publication number Publication date
CN113157914A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN110287323B (zh) 一种面向目标的情感分类方法
CN111460092A (zh) 一种基于多文档的复杂问题自动化求解方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN112257453A (zh) 融合关键词和语义特征的汉越文本相似度计算方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Zhang et al. Research on keyword extraction of Word2vec model in Chinese corpus
CN114428850A (zh) 一种文本检索匹配方法和系统
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
Anjum et al. Exploring humor in natural language processing: a comprehensive review of JOKER tasks at CLEF symposium 2023
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Jing et al. Chinese text sentiment analysis based on transformer model
Putra et al. Textual Entailment Technique for the Bahasa Using BiLSTM
Purba et al. Document level emotion detection from bangla text using machine learning techniques
CN113901172A (zh) 基于关键词结构编码的涉案微博评价对象抽取方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN109885827B (zh) 一种基于深度学习的命名实体的识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant