CN113157855B - 一种融合语义与上下文信息的文本摘要方法及系统 - Google Patents
一种融合语义与上下文信息的文本摘要方法及系统 Download PDFInfo
- Publication number
- CN113157855B CN113157855B CN202110197752.1A CN202110197752A CN113157855B CN 113157855 B CN113157855 B CN 113157855B CN 202110197752 A CN202110197752 A CN 202110197752A CN 113157855 B CN113157855 B CN 113157855B
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- abstract
- word
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种融合语义与上下文信息的文本摘要方法,其特征在于:包括以下步骤:步骤A:采集文本内容以及摘要,构建文本‑摘要对训练集;步骤B:基于文本‑摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要;本发明能够更好地捕获文本的潜在语义信息,提高了对于生成摘要的准确精度。
Description
技术领域
本发明涉及自然语言处理与文本摘要应用领域,尤其是一种融合语义与上下文信息的文本摘要方 法及系统。
背景技术
近年来,随着深度学习在各个应用领域取得突飞猛进的发展,研究人员开始将其应用到自动文本 摘要中。与传统的机器学习方法相比,深度学习方法能够自动地对文本的高层次特征进行提取、学习 文本的语义信息,实验效果得到显著提升。随着自然语言处理越来越受到研究人员的重视和研究,自 动文本摘要的关键技术成为了相关领域学者的研究热点之一。自动文本摘要可分为抽取式文本摘要和 生成式文本摘要,抽取式文本摘要是从原始文档中选择能够代表文章中心意思的句子、段落等,并将 它们连接起来组成摘要,而生成式摘要旨在通过学习文本的主要内容,重新组织并用简短的语言进行 概括。抽取式文本摘要方法相对简单,并且产生的摘要语法结构更准确,但是句子之间的联系不够紧密,抽取出来摘要不易理解。而生成式文本摘要更加符合人类生成摘要的习惯,摘要的中心意思更加 的集中,并尽可能用更少的文字表达文本的中心意思,两者有各自的优点和应用场景,都是自动文本 摘要领域的研究重点。
在过去的十几年内,生成式文本摘要的研究飞速发展,取得了一定的成就。早期的方法包括句子 压缩、句子融合、句子修改等方法。然而,这些方法与抽取式方法相比改进不大。后来,一种完全抽 象的方法应运而生,通常包含三个子任务:信息提取、内容选择和生成。该方法先从文本中提取重要 信息获得候选短语,之后选择一些候选短语,组成一个子集,最后使用语法/句法规则,组合子集中 的候选内容,利用文本生成方法生成摘要。Genest等人先对数据集中进行句子分割、标记化等一些预 处理,之后选择最常出现的短语,最后使用SimpleNLG工具生成摘要,从一定程度上提升了摘要的流畅 性。Greenbacker等人提出一种语义模型框架,先使用Sparser分析文本并构建语义模型,之后使用信 息密度度量,捕获文档和模型中重要的信息,从而获得丰富的语义信息,最后将这些信息组合成摘要。
近年来,深度学习方法在包括文本摘要研究在内的众多自然语言处理领域获得了广泛的应用。 Rush等人提出一种基于注意力机制的模型,模型由CNN编码器和神经网络语言模型组成,此外,他 们是第一个在句子摘要任务中使用带注释的Gigaword新闻数据集,并且还构建大规模语料库。随后 Chopra等人在此基础上,用循环神经网络作为解码器,进一步提高了生成式文本摘要模型的性能。 Nallapati等人受到seq2seq(Sequence toSequence)模型的启发,在生成式文本摘要模型上引入基于注意 力机制的编码器-解码器的模型,使用词法和统计特征对关键词进行建模,用层级的编码器结构捕捉 文档结构,进而获得丰富的潜在语义信息。尽管这些生成式的方法在文本摘要任务上取得了不错的结果,但是依然存在着不能准确把握文章事实、无法处理词汇表外的词和重复问题。针对上述问题,See 等人提出指针-生成器网络,该网络不仅能够从源文本复制单词,还能使用生成器生成新单词,解决 了OOV(Out of Vocabulary)的问题,此外,为了解决摘要的重复问题,See等人提出覆盖机制跟踪历 史注意力权重,进一步调节注意力权重,能够有效地提高所得到摘要的质量和效果。
编码器-解码器模型在短文本序列上取得了良好的性能,但是对于较长的文档序列,这些模型通常 会出现重复或者不连贯的短语。因此,近年来,出现了很多新的模型和方法解决文本的远距离依赖问 题。Lin等人提出用卷积门控单元对源文本进行全局编码,能够更好地获取n-gram语法特征信息。 Vaswani等人提出一种完全基于注意力机制的Tansformer模型,能更有效地对文本的长距离关系进行 建模,在众多领域上表现出显著的性能。You等人在Tansformer的基础上,提出一个局部方差注意力, 能够很好的学习长文本的表征,解决摘要语义不准确的问题。
发明内容
本发明提出一种融合语义与上下文信息的文本摘要方法及系统,能够更好地捕获文本的潜在语义 信息,提高了对于生成摘要的准确精度。
本发明采用以下技术方案。
一种融合语义与上下文信息的文本摘要方法,包括以下步骤:
步骤A:采集文本内容以及摘要,构建文本-摘要对训练集;
步骤B:基于文本-摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;
步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要。
所述步骤B具体包括以下步骤:
步骤B1:遍历文本-摘要对训练集,对训练集中的每个训练样本,重复下述步骤B2-B7;
步骤B8:根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用 随机梯度下降方法更新参数;
用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭 代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
步骤B9:当深度学习网络模型产生的损失值小于设定阈值不再降低或者达到最大迭代次数,终 止深度学习模型的训练。
所述步骤B2具体包括以下步骤:
步骤B21:每个训练样本表示为(s,a),s表示文本,a表示摘要,分别对文本s和摘要a进行分 词并去除停用词;
文本s和摘要a经过分词及去除停用词后,可分别表示为:
其中,为文本s经过分词及去除停用词后剩余词语中的第i个词,i=1,2,...,N;为摘要a 经过分词及去除停用词后剩余词语中的第j个词,j=1,2,...,M;N为文本s经过分词及去除停用词后 剩余的词语数量,M为摘要a经过分词及去除停用词后剩余的词语数量;
其中,“+”表示向量加法操作,为文本中第i个词所对应的词 向量,i=1,2,...,N,通过在预训练的词向量矩阵中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;为文本s中第i个词所对应的位置编码,i=1,2,...,N,编码方式如下:
其中,“+”表示向量加法操作,为摘要中第j个词所对应的词 向量,j=1,2,...,M,通过在预训练的词向量矩阵中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;为摘要中第j个词所对应的位置编码,j=1,2,...,M,编码方式如下:
所述步骤B3具体方法如下:将文本的初始表征向量视作由构成的向量序列,输 入到卷积编码器中,卷积编码器由L个卷积层构成,第一个卷积层的输入为文本的初始表征向量第 l个卷积层的输出为第l+1个卷积层的输入,对第l个卷积层,卷积操作公式如下:
所述步骤B4中;具体包括以下步骤:
步骤B42:选择能够整除d的整数h,将步骤B41计算得到的新向量qe,ke,ve的最后一个维度平 均分成h个子向量,分别得到子向量序列[qe,1;...;qe,i;...;qe,h]、[ke,1;...;ke,i;...;ke,h]和 [ve,1;...;ve,i;...;ve,h],其中是qe的第i个子向量,是ke的 第i个子向量,是ve的第i个子向量;
步骤B43:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Heade,i=softmax(Ae,i)ve,i 公式十四
步骤B44:把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;...;Heade,i...;Heade,h]We,i=1,2,...,h 公式十五
f=tanh([ce;qe]Wf) 公式十六
g=sigmoid([ce;qe]Wg) 公式十七
所述步骤B6具体包括以下步骤:
步骤B62:选择能够整除d的整数h,将步骤B61计算得到的新向量qa,ka,va的最后一个维度平 均分成h个子向量,分别得到子向量序列[qa,1;...;qa,i;...;qa,h]、[ka,1;…;ka,i;...;ka,h]和 [va,1;...;va,i;...;va,h],其中是qa的第i个子向量,是ka的第i个子向量,是va的第i个子向量;
步骤B63:将qa,ka,va的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Aa,i=qa,ika,i T,i=1,2,...h 公式二十三
步骤B64:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
步骤B65:将注意力相似性权重矩阵A′a,i经过softmax计算之后,再与va,i相乘,计算公式如下:
Heada,i=softmax(A′a,i)va,i 公式二十五
步骤B66:将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
ca=[Heada,1;...;Heada,i;...;Heada,h]Wc,i=1,2,...,h 公式二十六
步骤B69:选择能够整除d的整数h,将步骤B68计算得到的新向量qd、kd、vd的最后一个维 度平均分成h个子向量,分别得到子向量序列[qd,1;...;qd,i;...;qd,h]、[kd,1;...;kd,i;...;kd,h]和 [vd,1;...;vd,i;...;vd,h],其中是qd的第i个子向量,是kd的第i个子向量,是vd的第i个子向量。
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Headd,i=softmax(Ad,i)vd,i 公式三十一
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;...;Headd,i...;Headd,h]Wd,i=1,2,...,h 公式三十二
yd=LayerNorm((cd)Wd,1+Fm) 公式三十三
一种融合语义与上下文信息的文本摘要系统,采用以上所述的一种融合语义与上下文信息的文本 摘要方法,包括:
训练集构建模块,采集文本内容以及摘要,构建文本-摘要对训练集;
文本预处理模块,用于对训练集中的每个训练样本进行预处理,包括对样本中包含的文本与摘要 进行分词处理和去除停用词;
网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络 和转换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量,两个向量 经过门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量。利用该表征向量的概率 分布向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习 网络模型;以及文档摘要模块,用于利用训练好的深度学习网络模型对输入的文本进行分析处理,输 出文本的摘要。
相较于现有技术,本发明具有以下有益效果:提供了一种卷积神经网络与改进变换网络的文本摘 要方法及系统,该方法及系统基于文本摘要对训练集训练基于卷积神经网络与改进变换网络的深度学 习网络模型,充分提取文档全局和局部信息,从而使模型能够更加充分地学习源文本的语义信息。引 入门控机制控制模块各层中的语义信息流向,提取上下文信息和关键信息,从而使得模型能够更好地 捕获文本的潜在语义信息,提高了对于生成摘要的准确精度,具有很强的实用性和广阔的应用前景。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1为本发明实施例的方法实现流程图;
附图2为本发明实施例的系统结构示意图。
具体实施方式
一种融合语义与上下文信息的文本摘要方法,包括以下步骤:
步骤A:采集文本内容以及摘要,构建文本-摘要对训练集;
步骤B:基于文本-摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;
步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要。
所述步骤B具体包括以下步骤:
步骤B1:遍历文本-摘要对训练集,对训练集中的每个训练样本,重复下述步骤B2-B7;
步骤B8:根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用 随机梯度下降方法更新参数;
用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭 代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
步骤B9:当深度学习网络模型产生的损失值小于设定阈值不再降低或者达到最大迭代次数,终 止深度学习模型的训练。
所述步骤B2具体包括以下步骤:
步骤B21:每个训练样本表示为(s,a),s表示文本,a表示摘要,分别对文本s和摘要a进行分 词并去除停用词;
文本s和摘要a经过分词及去除停用词后,可分别表示为:
其中,为文本s经过分词及去除停用词后剩余词语中的第i个词,i=1,2,...,N;为摘要a 经过分词及去除停用词后剩余词语中的第j个词,j=1,2,...,M;N为文本s经过分词及去除停用词后 剩余的词语数量,M为摘要a经过分词及去除停用词后剩余的词语数量;
其中,“+”表示向量加法操作,为文本中第i个词所对应的词 向量,i=1,2,...,N,通过在预训练的词向量矩阵中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;为文本s中第i个词所对应的位置编码,i=1,2,...,N,编码方式如下:
其中,“+”表示向量加法操作,为摘要中第j个词所对应的词 向量,j=1,2,...,M,通过在预训练的词向量矩阵中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;为摘要中第j个词所对应的位置编码,j=1,2,...,M,编码方式如下:
所述步骤B3具体方法如下:将文本的初始表征向量视作由构成的向量序列,输 入到卷积编码器中,卷积编码器由L个卷积层构成,第一个卷积层的输入为文本的初始表征向量第 l个卷积层的输出为第l+1个卷积层的输入,对第l个卷积层,卷积操作公式如下:
所述步骤B4中;具体包括以下步骤:
步骤B42:选择能够整除d的整数h,将步骤B41计算得到的新向量qe,ke,ve的最后一个维度平 均分成h个子向量,分别得到子向量序列[qe,1;…;qe,i;…;qe,h]、[ke,1;…;ke,i;…;ke,h]和 [ve,1;…;ve,i;…;ve,h],其中是qe的第i个子向量,是ke的 第i个子向量,是ve的第i个子向量;
步骤B43:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Heade,i=softmax(Ae,i)ve,i 公式十四
步骤B44:把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;...;Heade,i...;Heade,h]We,i=1,2,...,h 公式十五
f=tanh([ce;qe]Wf) 公式十六
g=sigmoid([ce;qe]Wg) 公式十七
所述步骤B6具体包括以下步骤:
步骤B62:选择能够整除d的整数h,将步骤B61计算得到的新向量qa,ka,va的最后一个维度平 均分成h个子向量,分别得到子向量序列[qa,1;...;qa,i;...;qa,h]、[ka,1;...;ka,i;...;ka,h]和 [va,1;...;va,i;...;va,h],其中是qa的第i个子向量,是ka的第i个子向量,是va的第i个子向量;
步骤B63:将qa,ka,va的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Aa,i=qa,ika,i T,i=1,2,…h 公式二十三
步骤B64:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
步骤B65:将注意力相似性权重矩阵A′a,i经过softmax计算之后,再与va,i相乘,计算公式如下:
Heada,i=softmax(A′a,i)va,i 公式二十五
步骤B66:将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
ca=[Heada,1;...;Heada,i;...;Heada,h]Wc,i=1,2,...,h 公式二十六
步骤B69:选择能够整除d的整数h,将步骤B68计算得到的新向量qd、kd、vd的最后一个维 度平均分成h个子向量,分别得到子向量序列[qd,1;…;qd,i;…;qd,h]、[kd,1;...;kd,i;...;kd,h]和 [vd,1;...;vd,i;...;vd,h],其中是qd的第i个子向量,是kd的第i个子向量,是vd的第i个子向量。
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Headd,i=softmax(Ad,i)vd,i 公式三十一
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;...;Headd,i...;Headd,h]Wd,i=1,2,...,h 公式三十二
yd=LayerNorm((cd)Wd,1+Fm) 公式三十三
一种融合语义与上下文信息的文本摘要系统,采用以上所述的一种融合语义与上下文信息的文本 摘要方法,包括:
训练集构建模块,采集文本内容以及摘要,构建文本-摘要对训练集;
文本预处理模块,用于对训练集中的每个训练样本进行预处理,包括对样本中包含的文本与摘要 进行分词处理和去除停用词;
网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转 换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量,两个向量经过 门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量。利用该表征向量的概率分布 向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络 模型;以及文档摘要模块,用于利用训练好的深度学习网络模型对输入的文本进行分析处理,输出文 本的摘要。
实施例1:
如图所示,一种融合语义与上下文信息的文本摘要方法,其特征在于:包括以下步骤:
步骤A:采集文档的文本内容以及摘要,构建包括文档、摘要和文档与摘要关联数据的文本-摘要 训练集SA;
步骤B:基于文本-摘要对训练集SA,训练基于融合卷积神经网络与改进变换网络的深度学习网 络模型M;
步骤C:自动文摘系统接受文本内容,将文本输入到训练好的深度学习网络模型M中,输出文本 的摘要。
所述步骤B具体包括以下步骤:
步骤B4:用神经网络的GTU门控单元将步骤B2得到的文本的局部上下文信息表征向量Fl和步 骤B3得到的全局上下文信息表征向量Fg融合起来,得到融合向量F;
步骤B5:将步骤B4得到的融合向量F和摘要的初始表征向量输入到深度学习网络模型的解码器 模块中,得到表征向量Fd;
步骤B6:将步骤B5得到的表征向量输入到全连接层和Softmax层,根据目标损失函数loss,利 用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B7:当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大 迭代次数,则终止神经网络模型的训练。
所述步骤B1具体包括以下步骤:
步骤B11:遍历训练集SA,SA中的每个训练样本表示为sa=(s,a),其中s表示文本,a表示摘 要;对训练样本sa中的文档s和摘要a进行分词处理去除停用词;
其中,文本s和摘要a分别经过分词及去除停用词后,表示为:
其中,p(i,2j)表示位于文本中第i个词的第j个维度的值,i表示该词在文档中出现的位置,位置 编码的每一维对应一个正弦信号。是文本s的初始表征向量中第t个单词及其 位置信息pt的相加表示,“+”表示向量加法操作,文本s的初始表征向量
其中,p(i,2j)表示位于摘要中第i个词的第j个维度的值,i表示该词在摘要中出现的位置,位置编码 的每一维对应一个正弦信号。是摘要a的初始表征向量中第t个单词及其位置 信息pt的相加表示,“+”表示向量加法操作,摘要a的初始表征向量
所述步骤B2具体包括以下步骤:
其中卷积编码器由L个卷积块构成,blockl,l=1,2,K L表示第l个卷积块,每个block相互独立,卷积 块blockl的计算公式如下:
其中,表示该卷积窗口内的向量序列,k为卷积核的大小,Wl∈R2d×kd为可学习的 参数,2d表示特征映射的个数;为偏置向量;为第l个卷积块第i个词所对应的输 入,为第l层卷积block第i个词所对应的输出,第一层卷积的输入为文档的初始表征向量将按d维平分成两部分,分别为和使用门控单元融合两部分的信息,得到d维向 量,计算公式如下式所示
其中,σ为sigmoid函数,Wa∈Rd×d,Wb∈Rd×d为可训练的参数,最后一个卷积块的输出为卷积编码 器的输出,即文档的局部上下文信息表征向量Fl∈RN×d。
所述步骤B3具体包括以下步骤:
步骤B32:选择能够整除d的整数h,将步骤B31计算得到的新向量qe,ke,ve的最后一个维度平均 分成h个子向量,分别得到子向量序列[qe,1;...;qe,i;...;qe,h]、[ke,1;...;ke,i;...;ke,h]和[ve,1;...;ve,i;...;ve,h], 其中qe,i∈RN×(d/h),i=1,2,...h是qe的第i个子向量,ke,i∈RN×(d/h),i=1,2,...h是ke的第i个子向量, ve,i∈RN×(d/h),i=1,2,...h是ve的第i个子向量。
步骤B33:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Heade,i=softmax(Ae,i)ve,i (公式13)
其中Ae,i∈RN×N为注意力相似性权重矩阵,Heade,i∈RN×(d/h)为多头注意力机制第i个子向量的输出向 量;
步骤B34:把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;Heade,2;...;Heade,h]·We,i=1,2,...,h (公式14)
其中,ce∈RN×d为多头注意力机制的输出向量,“·”为矩阵相乘操作,“;”表示向量连接操作。We∈Rd×d为可训练的参数;
步骤B35:把多头注意力机制的输出向量ce和qe向量输入到门控单元中,得到门控注意力向量 u∈RN×d,计算公式如下:
f=tanh([ce;qe]·Wf) (公式15)
g=sigmoid([ce;qe]·Wg) (公式16)
步骤B36:把得到的门控注意力向量u进行残差操作和层归一化操作,再经过一个全连接前向网 络,得到文档的全局上下文信息表征向量Fg∈RN×d,计算公式如下:
Fg=max(0,yeWe,2+be,1)We,3+be,2 (公式19)
其中LayerNorm表示层归一化操作,We,1∈Rd×d,We,2∈Rd×d,We,3∈Rd×d,be,1∈RN×d,be,2∈RN×d为 可训练的参数。
所述步骤B4具体为:
用门控单元融合步骤B2得到的文档的局部上下文信息表征向量Fl∈RN×d与步骤B3得到的文档的 全局上下文信息表征向量Fg∈RN×d,得到融合向量F∈RN×d,计算公式如下;
所述步骤B5具体包括以下步骤:
步骤B52:选择能够整除d的整数h,将步骤B51计算得到的新向量qm,km,vm的最后一个维度平 均分成h个子向量,分别得到子向量序列[qm,1;...;qm,i;...;qm,h]、[km,1;…;km,i;…;km,h]和 [vm,1;...;vm,i;...;vm,h],其中qm,i∈RM×(d/h),i=1,2,...h是qm的第i个子向量,km,i∈RM×(d/h),i=1,2,...h是km的第i个子向量,vm,i∈RM×(d/h),i=1,2,...h是vm的第i个子向量;
步骤B53:将qm,km,vm的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Am,i=qm,ikm,i T,i=1,2,...h (公式22)
其中,Am,i∈RM×M为注意力相似性权重矩阵;
步骤B54:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
其中,Wm∈RM×M为上三角区域为负无穷的矩阵。掩码操作的目的是在原始矩阵上盖上一层掩膜, 从而屏蔽或选择一些特定元素。
步骤B55:将注意力相似性权重矩阵A′m,i经过softmax计算之后,再与vm,i相乘,计算公式如下:
am,i=softmax(A′m,i)vm,i (公式24)
其中,am,i∈RM×(d/h)多头注意力机制第i个子向量的输出向量。
步骤B56:把将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
cm=[am,1;...;am,i;...;am,h]·Wc,i=1,2,...,h (公式25)
其中,cm∈RM×d为多头注意力机制的输出向量,“·”为矩阵相乘操作,“;”表示向量连接操作, Wc∈Rd×d为可训练参数;
Fm=max(0,ymWm,2+bm,1)Wm,3+bm,2 (公式27)
其中LayerNorm表示层归一化操作,Wm,1∈Rd×d、Wm,2∈Rd×d、Wm,3∈Rd×d、bm,1∈RN×d、bm,2∈RN×d为可训练参数;
步骤B58:将摘要的全局上下文信息表征向量Fm和融合向量F输入到编码器-解码器注意力层中, 将得到的摘要全局上下文信息表征向量Fm乘以权重矩阵得到新向量qd∈RN×d。将融合向量F 分别乘以权重矩阵得到新向量kd∈RM×d、vd∈RM×d,其中M为摘要中词的个数,d表示 词向量的维度,计算公式如下:
步骤B59:选择能够整除d的整数h,将步骤B58计算得到的新向量qd、kd、vd的最后一个维度 平均分成h个子向量,分别得到子向量序列[qd,1;...;qd,i;...;qd,h]、[kd,1;...;kd,i;...;kd,h]和 [vd,1;…;vd,i;…;vd,h],其中qd,i∈RN×(d/h),i=1,2,…h是qd的第i个子向量,kd,i∈RM×(d/h),i=1,2,…h是kd的第i个子向量,vd,i∈RM×(d/h),i=1,2,…h是vd的第i个子向量。
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Headd,i=softmax(Ad,i)vd,i (公式30)
其中Ad,i∈RN×M为注意力相似性权重矩阵,Headd,i∈RN×(d/h)为多头注意力机制第i个子向量的输 出向量;
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;Headd,2;...;Headd,h]·Wd,i=1,2,...,h (公式31)
其中,cd∈RN×d为多头注意力机制的输出向量,“·”为矩阵相乘操作,“;”表示向量连接操作, Wd∈Rd×d为可训练的参数;
把多头注意力机制的输出向量cd经过残差操作和层归一化操作,最后经过一个全连接前向网络, 得到表征向量Fd∈RN×d,计算公式如下:
yd=LayerNorm((cd)Wd,1+Fm) (公式32)
Fd=max(0,ydWd,2+bd,1)Wd,3+bd,2 (公式33)
其中LayerNorm表示层归一化操作,Wd,1∈Rd×d、Wd,2∈Rd×d、Wd,3∈Rd×d、bd,1∈RN×d、bd,2∈RN×d为可训练的参数。
所述步骤B6具体包括以下步骤:
步骤B61:将步骤B5得到的表征向量Fd经过全连接层,再经过softmax层进行归一化处理,计 算概率分布向量Pv∈RN×|D|,|D|为词典大小,计算公式如下:
Pv=soft max(FdWo) (公式34)
其中Wo∈Rd×|D|为隐藏层权重矩阵,为可训练的参数;
步骤B62:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反 向传播迭代更新模型参数,以最小化损失函数来训练模型。
其中最小化损失函数Loss的计算公式如下:
以上所述的一种融合语义与上下文信息的文本摘要方法:其所使用的系统包括训练集构建模块, 用于采集文档内容以及摘要,构建文档-摘要对训练集SA;
所述系统还包括文本预处理模块,用于对训练集输入文本进行预处理,包括对输入文本进行分词 处理和去除停用词,得到经过预处理的文本;
所述系统还包括特征提取模块,用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词 的词向量,并且结合位信息得到文档和摘要的文本表征向量;
所述系统还包括网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型 的卷积神经网络和转换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征 向量,两个向量经过门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量。利用该 表征向量的概率分布向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训 练,得到深度学习网络模型;
所述系统还包括文档处理模块,用于利用训练好的深度学习网络模型对输入的文档进行分析处 理,输出文档的摘要。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此, 本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本 申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框 图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流 程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编 程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个 方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计 算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装 置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编 程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指 令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步 骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业 的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离 本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型, 仍属于本发明技术方案的保护范围。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明 技术方案的范围时,均属于本发明的保护范围。
Claims (7)
1.一种融合语义与上下文信息的文本摘要方法,其特征在于:包括以下步骤:
步骤A:采集文本内容以及摘要,构建文本-摘要对训练集;
步骤B:基于文本-摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;
步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要;所述步骤B具体包括以下步骤:
步骤B1:遍历文本-摘要对训练集,对训练集中的每个训练样本,重复下述步骤B2-B7;
步骤B8:根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
步骤B9:当深度学习网络模型产生的损失值小于设定阈值且损失值不再降低,或者达到最大迭代次数,终止深度学习模型的训练。
2.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B2具体包括以下步骤:
步骤B21:每个训练样本表示为(s,a),s表示文本,a表示摘要,分别对文本s和摘要a进行分词并去除停用词;
文本s和摘要a经过分词及去除停用词后,可分别表示为:
其中,为文本s经过分词及去除停用词后剩余词语中的第i个词,i=1,2,...,N;为摘要a经过分词及去除停用词后剩余词语中的第j个词,j=1,2,...,M;N为文本s经过分词及去除停用词后剩余的词语数量,M为摘要a经过分词及去除停用词后剩余的词语数量;
其中,“+”表示向量加法操作,为文本s中第i个词所对应的词向量,i=1,2,...,N,通过在预训练的词向量矩阵中查找得到,其中d表示词向量的维度,|D|是词典中的词语数;为文本s中第i个词所对应的位置编码,i=1,2,...,N,编码方式如下:
其中,“+”表示向量加法操作,为摘要a中第j个词所对应的词向量,j=1,2,...,M,通过在预训练的词向量矩阵中查找得到,其中d表示词向量的维度,|D|是词典中的词语数;为摘要a中第j个词所对应的位置编码,j=1,2,...,M,编码方式如下:
3.根据权利要求2所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B3具体方法如下:将文本的初始表征向量视作由构成的向量序列,输入到卷积编码器中,卷积编码器由L个卷积层构成,第一个卷积层的输入为文本的初始表征向量第l个卷积层的输出为第l+1个卷积层的输入,对第l个卷积层,卷积操作公式如下:
4.根据权利要求2所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B4中;具体包括以下步骤:
步骤B42:选择能够整除d的整数h,将步骤B41计算得到的新向量qe,ke,ve的最后一个维度平均分成h个子向量,分别得到子向量序列[qe,1;...;qe,i;...;qe,h]、[ke,1;...;ke,i;...;ke,h]和[ve,1;...;ve,i;...;ve,h],其中是qe的第i个子向量,是ke的第i个子向量,是ve的第i个子向量;
步骤B43:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Heade,i=softmax(Ae,i)ve,i 公式十四
步骤B44:把h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;...;Heade,i...;Heade,h]We,i=1,2,...,h 公式十五
f=tanh([ce;qe]Wf) 公式十六
g=sigmoid([ce;qe]Wg) 公式十七
6.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B6具体包括以下步骤:
步骤B62:选择能够整除d的整数h,将步骤B61计算得到的新向量qa,ka,va的最后一个维度平均分成h个子向量,分别得到子向量序列[qa,1;...;qa,i;...;qa,h]、[ka,1;...;ka,i;...;ka,h]和[va,1;...;va,i;...;va,h],其中是qa的第i个子向量,是ka的第i个子向量,是va的第i个子向量;
步骤B63:将qa,ka,va的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Aa,i=qa,ika,i T,i=1,2,...h 公式二十三
步骤B64:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
步骤B65:将注意力相似性权重矩阵A′a,i经过softmax计算之后,再与va,i相乘,计算公式如下:
Heada,i=softmax(A′a,i)va,i 公式二十五
步骤B66:将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
ca=[Heada,1;...;Heada,i;...;Heada,h]Wc,i=1,2,...,h 公式二十六
步骤B69:选择能够整除d的整数h,将步骤B68计算得到的新向量qd、kd、vd的最后一个维度平均分成h个子向量,分别得到子向量序列[qd,1;...;qd,i;...;qd,h]、[kd,1;...;kd,i;...;kd,h]和[vd,1;...;vd,i;...;vd,h],其中是qd的第i个子向量,是kd的第i个子向量,是vd的第i个子向量;
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Headd,i=softmax(Ad,i)vd,i 公式三十一
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;...;Headd,i...;Headd,h]Wd,i=1,2,...,h 公式三十二
7.一种融合语义与上下文信息的文本摘要系统,其特征在于:采用权利要求1、2、3、4、5、6任一项所述的一种融合语义与上下文信息的文本摘要方法,包括:
训练集构建模块,采集文本内容以及摘要,构建文本-摘要对训练集;
文本预处理模块,用于对训练集中的每个训练样本进行预处理,包括对样本中包含的文本与摘要进行分词处理和去除停用词;
网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量,两个向量经过门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量,利用该表征向量的概率分布向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;以及文档摘要模块,用于利用训练好的深度学习网络模型对输入的文本进行分析处理,输出文本的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110197752.1A CN113157855B (zh) | 2021-02-22 | 2021-02-22 | 一种融合语义与上下文信息的文本摘要方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110197752.1A CN113157855B (zh) | 2021-02-22 | 2021-02-22 | 一种融合语义与上下文信息的文本摘要方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113157855A CN113157855A (zh) | 2021-07-23 |
CN113157855B true CN113157855B (zh) | 2023-02-21 |
Family
ID=76883764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110197752.1A Active CN113157855B (zh) | 2021-02-22 | 2021-02-22 | 一种融合语义与上下文信息的文本摘要方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157855B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9569428B2 (en) * | 2013-08-30 | 2017-02-14 | Getgo, Inc. | Providing an electronic summary of source content |
CN108804495B (zh) * | 2018-04-02 | 2021-10-22 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN111274375B (zh) * | 2020-01-20 | 2022-06-14 | 福州大学 | 一种基于双向gru网络的多轮对话方法及系统 |
CN111723547A (zh) * | 2020-05-25 | 2020-09-29 | 河海大学 | 一种基于预训练语言模型的文本自动摘要方法 |
CN111897949B (zh) * | 2020-07-28 | 2021-10-26 | 北京工业大学 | 一种基于Transformer的引导性文本摘要生成方法 |
-
2021
- 2021-02-22 CN CN202110197752.1A patent/CN113157855B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113157855A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN106844348B (zh) | 一种汉语句子功能成分分析方法 | |
Shini et al. | Recurrent neural network based text summarization techniques by word sequence generation | |
CN114881042B (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
Liu et al. | A multi-label text classification model based on ELMo and attention | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
Dhivyaa et al. | Transliteration based generative pre-trained transformer 2 model for Tamil text summarization | |
Fu et al. | RepSum: Unsupervised dialogue summarization based on replacement strategy | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN114492459A (zh) | 基于知识图谱与交互图卷积的评论情感分析方法及系统 | |
CN113157855B (zh) | 一种融合语义与上下文信息的文本摘要方法及系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN113157914B (zh) | 一种基于多层循环神经网络的文档摘要提取方法及系统 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Maw et al. | Aspect based Sentiment Analysis for travel and tourism in Myanmar Language using LSTM | |
Liu et al. | An improved BERT and syntactic dependency representation model for sentiment analysis | |
Jin et al. | A Comparative Study of Korean Feature Granularity Based on Hybrid Neural Network | |
Yolchuyeva | Novel NLP Methods for Improved Text-To-Speech Synthesis | |
Sun et al. | Text sentiment polarity classification method based on word embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |