CN113157855B - 一种融合语义与上下文信息的文本摘要方法及系统 - Google Patents

一种融合语义与上下文信息的文本摘要方法及系统 Download PDF

Info

Publication number
CN113157855B
CN113157855B CN202110197752.1A CN202110197752A CN113157855B CN 113157855 B CN113157855 B CN 113157855B CN 202110197752 A CN202110197752 A CN 202110197752A CN 113157855 B CN113157855 B CN 113157855B
Authority
CN
China
Prior art keywords
vector
text
abstract
word
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110197752.1A
Other languages
English (en)
Other versions
CN113157855A (zh
Inventor
陈羽中
张斯巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110197752.1A priority Critical patent/CN113157855B/zh
Publication of CN113157855A publication Critical patent/CN113157855A/zh
Application granted granted Critical
Publication of CN113157855B publication Critical patent/CN113157855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种融合语义与上下文信息的文本摘要方法,其特征在于:包括以下步骤:步骤A:采集文本内容以及摘要,构建文本‑摘要对训练集;步骤B:基于文本‑摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要;本发明能够更好地捕获文本的潜在语义信息,提高了对于生成摘要的准确精度。

Description

一种融合语义与上下文信息的文本摘要方法及系统
技术领域
本发明涉及自然语言处理与文本摘要应用领域,尤其是一种融合语义与上下文信息的文本摘要方 法及系统。
背景技术
近年来,随着深度学习在各个应用领域取得突飞猛进的发展,研究人员开始将其应用到自动文本 摘要中。与传统的机器学习方法相比,深度学习方法能够自动地对文本的高层次特征进行提取、学习 文本的语义信息,实验效果得到显著提升。随着自然语言处理越来越受到研究人员的重视和研究,自 动文本摘要的关键技术成为了相关领域学者的研究热点之一。自动文本摘要可分为抽取式文本摘要和 生成式文本摘要,抽取式文本摘要是从原始文档中选择能够代表文章中心意思的句子、段落等,并将 它们连接起来组成摘要,而生成式摘要旨在通过学习文本的主要内容,重新组织并用简短的语言进行 概括。抽取式文本摘要方法相对简单,并且产生的摘要语法结构更准确,但是句子之间的联系不够紧密,抽取出来摘要不易理解。而生成式文本摘要更加符合人类生成摘要的习惯,摘要的中心意思更加 的集中,并尽可能用更少的文字表达文本的中心意思,两者有各自的优点和应用场景,都是自动文本 摘要领域的研究重点。
在过去的十几年内,生成式文本摘要的研究飞速发展,取得了一定的成就。早期的方法包括句子 压缩、句子融合、句子修改等方法。然而,这些方法与抽取式方法相比改进不大。后来,一种完全抽 象的方法应运而生,通常包含三个子任务:信息提取、内容选择和生成。该方法先从文本中提取重要 信息获得候选短语,之后选择一些候选短语,组成一个子集,最后使用语法/句法规则,组合子集中 的候选内容,利用文本生成方法生成摘要。Genest等人先对数据集中进行句子分割、标记化等一些预 处理,之后选择最常出现的短语,最后使用SimpleNLG工具生成摘要,从一定程度上提升了摘要的流畅 性。Greenbacker等人提出一种语义模型框架,先使用Sparser分析文本并构建语义模型,之后使用信 息密度度量,捕获文档和模型中重要的信息,从而获得丰富的语义信息,最后将这些信息组合成摘要。
近年来,深度学习方法在包括文本摘要研究在内的众多自然语言处理领域获得了广泛的应用。 Rush等人提出一种基于注意力机制的模型,模型由CNN编码器和神经网络语言模型组成,此外,他 们是第一个在句子摘要任务中使用带注释的Gigaword新闻数据集,并且还构建大规模语料库。随后 Chopra等人在此基础上,用循环神经网络作为解码器,进一步提高了生成式文本摘要模型的性能。 Nallapati等人受到seq2seq(Sequence toSequence)模型的启发,在生成式文本摘要模型上引入基于注意 力机制的编码器-解码器的模型,使用词法和统计特征对关键词进行建模,用层级的编码器结构捕捉 文档结构,进而获得丰富的潜在语义信息。尽管这些生成式的方法在文本摘要任务上取得了不错的结果,但是依然存在着不能准确把握文章事实、无法处理词汇表外的词和重复问题。针对上述问题,See 等人提出指针-生成器网络,该网络不仅能够从源文本复制单词,还能使用生成器生成新单词,解决 了OOV(Out of Vocabulary)的问题,此外,为了解决摘要的重复问题,See等人提出覆盖机制跟踪历 史注意力权重,进一步调节注意力权重,能够有效地提高所得到摘要的质量和效果。
编码器-解码器模型在短文本序列上取得了良好的性能,但是对于较长的文档序列,这些模型通常 会出现重复或者不连贯的短语。因此,近年来,出现了很多新的模型和方法解决文本的远距离依赖问 题。Lin等人提出用卷积门控单元对源文本进行全局编码,能够更好地获取n-gram语法特征信息。 Vaswani等人提出一种完全基于注意力机制的Tansformer模型,能更有效地对文本的长距离关系进行 建模,在众多领域上表现出显著的性能。You等人在Tansformer的基础上,提出一个局部方差注意力, 能够很好的学习长文本的表征,解决摘要语义不准确的问题。
发明内容
本发明提出一种融合语义与上下文信息的文本摘要方法及系统,能够更好地捕获文本的潜在语义 信息,提高了对于生成摘要的准确精度。
本发明采用以下技术方案。
一种融合语义与上下文信息的文本摘要方法,包括以下步骤:
步骤A:采集文本内容以及摘要,构建文本-摘要对训练集;
步骤B:基于文本-摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;
步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要。
所述步骤B具体包括以下步骤:
步骤B1:遍历文本-摘要对训练集,对训练集中的每个训练样本,重复下述步骤B2-B7;
步骤B2:对每个训练样本,根据预训练的词向量矩阵分别对文本和摘要进行编码,得到文本的 初始表征向量
Figure BDA0002946389530000021
和摘要的初始表征向量
Figure BDA0002946389530000022
步骤B3:将步骤B2得到的初始表征向量
Figure BDA0002946389530000023
输入到卷积编码器中,得到文本的语义表征向量
Figure BDA0002946389530000024
步骤B4:将步骤B2得到的初始表征向量
Figure BDA0002946389530000025
输入到变换网络中,得到文本的上下文表征向量
Figure BDA0002946389530000026
步骤B5:使用门控单元融合步骤B3得到的文本的语义表征向量
Figure BDA0002946389530000027
和步骤B4得到的文本的上下 文表征向量
Figure BDA0002946389530000028
得到文本的表征向量
Figure BDA0002946389530000029
步骤B6:将步骤B5得到的文本的表征向量
Figure BDA00029463895300000210
和步骤B2得到的摘要的初始表征向量
Figure BDA00029463895300000211
输入到解码 器中,得到融合文本和摘要语义信息的表征向量
Figure BDA00029463895300000212
步骤B7:将步骤B5得到的表征向量
Figure BDA00029463895300000213
输入到全连接层,再通过Softmax,输出概率分布向量
Figure BDA00029463895300000214
|D|为词典大小,计算公式如下:
Figure BDA0002946389530000031
其中
Figure BDA0002946389530000032
为隐藏层权重矩阵,为可训练的参数;
步骤B8:根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用 随机梯度下降方法更新参数;
用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭 代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
Figure BDA0002946389530000033
其中M为摘要中词的个数;
Figure BDA0002946389530000034
为预测第i个摘要词时,目标单词在词典中的索引;
步骤B9:当深度学习网络模型产生的损失值小于设定阈值不再降低或者达到最大迭代次数,终 止深度学习模型的训练。
所述步骤B2具体包括以下步骤:
步骤B21:每个训练样本表示为(s,a),s表示文本,a表示摘要,分别对文本s和摘要a进行分 词并去除停用词;
文本s和摘要a经过分词及去除停用词后,可分别表示为:
Figure BDA0002946389530000035
Figure BDA0002946389530000036
其中,
Figure BDA0002946389530000037
为文本s经过分词及去除停用词后剩余词语中的第i个词,i=1,2,...,N;
Figure BDA0002946389530000038
为摘要a 经过分词及去除停用词后剩余词语中的第j个词,j=1,2,...,M;N为文本s经过分词及去除停用词后 剩余的词语数量,M为摘要a经过分词及去除停用词后剩余的词语数量;
步骤B22:对步骤B21得到的摘要s进行编码,得到摘要s的初始表征向量
Figure BDA0002946389530000039
表示为:
Figure BDA00029463895300000310
其中,
Figure BDA00029463895300000311
“+”表示向量加法操作,
Figure BDA00029463895300000312
为文本中第i个词
Figure BDA00029463895300000313
所对应的词 向量,i=1,2,...,N,通过在预训练的词向量矩阵
Figure BDA00029463895300000314
中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;
Figure BDA00029463895300000315
为文本s中第i个词
Figure BDA00029463895300000316
所对应的位置编码,i=1,2,...,N,编码方式如下:
Figure BDA00029463895300000317
Figure BDA0002946389530000041
其中,
Figure BDA0002946389530000042
表示位置编码
Figure BDA0002946389530000043
的偶数维对应的正弦值,
Figure BDA0002946389530000044
表示位置编码
Figure BDA0002946389530000045
的奇数维对应的余弦 值;
Figure BDA0002946389530000046
[]T表示转置操作;
步骤B23:对步骤B21得到的摘要a进行编码,得到摘要a的初始表征向量
Figure BDA0002946389530000047
表示为:
Figure BDA0002946389530000048
其中,
Figure BDA0002946389530000049
“+”表示向量加法操作,
Figure BDA00029463895300000410
为摘要中第j个词
Figure BDA00029463895300000411
所对应的词 向量,j=1,2,...,M,通过在预训练的词向量矩阵
Figure BDA00029463895300000412
中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;
Figure BDA00029463895300000413
为摘要中第j个词
Figure BDA00029463895300000414
所对应的位置编码,j=1,2,...,M,编码方式如下:
Figure BDA00029463895300000415
Figure BDA00029463895300000416
其中,
Figure BDA00029463895300000417
表示位置编码
Figure BDA00029463895300000418
的偶数维对应的正弦值,
Figure BDA00029463895300000419
表示位置编码
Figure BDA00029463895300000420
的奇数维对应的余弦值;
Figure BDA00029463895300000421
[]T表示转置操作。
所述步骤B3具体方法如下:将文本的初始表征向量
Figure BDA00029463895300000422
视作由
Figure BDA00029463895300000423
构成的向量序列,输 入到卷积编码器中,卷积编码器由L个卷积层构成,第一个卷积层的输入为文本的初始表征向量
Figure BDA00029463895300000424
第 l个卷积层的输出为第l+1个卷积层的输入,对第l个卷积层,卷积操作公式如下:
Figure BDA00029463895300000425
其中,
Figure BDA00029463895300000426
表示第l层第i个卷积核窗口的输出,
Figure BDA00029463895300000427
表示在卷积核窗口内的向 量序列,k为卷积核的大小,
Figure BDA00029463895300000428
为待学习的参数,2d表示特征映射的个数;
Figure BDA00029463895300000429
为偏置向 量,
Figure BDA00029463895300000430
为文本s的第i个词在第l个卷积层所对应的输出;
Figure BDA00029463895300000431
平分成两部分,分别为
Figure BDA00029463895300000432
Figure BDA00029463895300000433
使用门控单元融合两部分的信息,得到
Figure BDA00029463895300000434
计算公式如下:
Figure BDA00029463895300000435
其中,σ为sigmoid函数,
Figure BDA00029463895300000436
为可训练的参数;
将第L个卷积层的输出作为文本的语义表征向量
Figure BDA00029463895300000437
所述步骤B4中;具体包括以下步骤:
步骤B41:将得到文档的初始表征向量
Figure BDA0002946389530000051
分别乘以权重矩阵
Figure BDA0002946389530000052
得到新向量
Figure BDA0002946389530000053
Figure BDA0002946389530000054
计算公式如下:
Figure BDA0002946389530000055
其中,
Figure BDA0002946389530000056
为可训练的参数;
步骤B42:选择能够整除d的整数h,将步骤B41计算得到的新向量qe,ke,ve的最后一个维度平 均分成h个子向量,分别得到子向量序列[qe,1;...;qe,i;...;qe,h]、[ke,1;...;ke,i;...;ke,h]和 [ve,1;...;ve,i;...;ve,h],其中
Figure BDA0002946389530000057
是qe的第i个子向量,
Figure BDA0002946389530000058
是ke的 第i个子向量,
Figure BDA0002946389530000059
是ve的第i个子向量;
步骤B43:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure BDA00029463895300000510
Heade,i=softmax(Ae,i)ve,i 公式十四
其中
Figure BDA00029463895300000511
为注意力相似性权重矩阵,
Figure BDA00029463895300000512
为多头注意力机制第i个子向量的输 出向量;
步骤B44:把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;...;Heade,i...;Heade,h]We,i=1,2,...,h 公式十五
其中,
Figure BDA00029463895300000513
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure BDA00029463895300000514
为可训练的参数;
步骤B45:把多头注意力机制的输出向量ce和qe向量输入到门控单元中,得到门控注意力向量
Figure BDA00029463895300000515
计算公式如下:
f=tanh([ce;qe]Wf) 公式十六
g=sigmoid([ce;qe]Wg) 公式十七
Figure BDA00029463895300000517
其中,
Figure BDA00029463895300000518
是矩阵之间的元素乘积,
Figure BDA00029463895300000516
为可训练的参数;
步骤B46:对得到的门控注意力向量u进行残差操作和层归一化操作,再经过一个全连接前向网 络,得到文本的上下文表征向量
Figure BDA0002946389530000061
计算公式如下:
Figure BDA0002946389530000062
Figure BDA0002946389530000063
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure BDA0002946389530000064
Figure BDA0002946389530000065
为可训练的参数。。
所述步骤B5中,使用门控单元融合步骤B3得到的文本的语义表征向量
Figure BDA0002946389530000066
和步骤B4得到的文本 的上下文表征向量
Figure BDA0002946389530000067
得到文本的表征向量
Figure BDA0002946389530000068
计算公式如下:
Figure BDA0002946389530000069
其中,
Figure BDA00029463895300000622
表示哈达玛积,σ为sigmoid函数。
所述步骤B6具体包括以下步骤:
步骤B61:得到摘要的初始表征向量
Figure BDA00029463895300000610
之后,将
Figure BDA00029463895300000611
分别乘以权重矩阵
Figure BDA00029463895300000612
得到新向量
Figure BDA00029463895300000613
计算公式如下:
Figure BDA00029463895300000614
其中,
Figure BDA00029463895300000615
为可学习的参数;
步骤B62:选择能够整除d的整数h,将步骤B61计算得到的新向量qa,ka,va的最后一个维度平 均分成h个子向量,分别得到子向量序列[qa,1;...;qa,i;...;qa,h]、[ka,1;…;ka,i;...;ka,h]和 [va,1;...;va,i;...;va,h],其中
Figure BDA00029463895300000616
是qa的第i个子向量,
Figure BDA00029463895300000617
是ka的第i个子向量,
Figure BDA00029463895300000618
是va的第i个子向量;
步骤B63:将qa,ka,va的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Aa,i=qa,ika,i T,i=1,2,...h 公式二十三
其中,
Figure BDA00029463895300000619
为注意力相似性权重矩阵;
步骤B64:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
Figure BDA00029463895300000620
其中,
Figure BDA00029463895300000621
为上三角区域为负无穷的矩阵。掩码操作的目的是在原始矩阵上盖上一层掩膜, 从而屏蔽或选择一些特定元素;
步骤B65:将注意力相似性权重矩阵A′a,i经过softmax计算之后,再与va,i相乘,计算公式如下:
Heada,i=softmax(A′a,i)va,i 公式二十五
其中,
Figure BDA0002946389530000071
多头注意力机制第i个子向量的输出向量。
步骤B66:将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
ca=[Heada,1;...;Heada,i;...;Heada,h]Wc,i=1,2,...,h 公式二十六
其中,
Figure BDA0002946389530000072
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure BDA0002946389530000073
为可训练参数;
步骤B67:对得到的多头注意力机制的输出向量ca进行残差操作和层归一化操作,再经过一个全 连接前向网络,得到摘要的上下文信息表征向量
Figure BDA0002946389530000074
计算公式如下:
Figure BDA0002946389530000075
Figure BDA0002946389530000076
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure BDA0002946389530000077
Figure BDA0002946389530000078
为可训练参数;
步骤B68:将摘要的上下文表征向量
Figure BDA0002946389530000079
和文本的表征向量
Figure BDA00029463895300000710
输入到注意力层中,将
Figure BDA00029463895300000711
乘以权重矩 阵
Figure BDA00029463895300000712
得到向量
Figure BDA00029463895300000713
Figure BDA00029463895300000714
分别乘以权重矩阵
Figure BDA00029463895300000715
得到向量
Figure BDA00029463895300000716
计算 公式如下:
Figure BDA00029463895300000717
其中,
Figure BDA00029463895300000718
为可训练参数;
步骤B69:选择能够整除d的整数h,将步骤B68计算得到的新向量qd、kd、vd的最后一个维 度平均分成h个子向量,分别得到子向量序列[qd,1;...;qd,i;...;qd,h]、[kd,1;...;kd,i;...;kd,h]和 [vd,1;...;vd,i;...;vd,h],其中
Figure BDA00029463895300000719
是qd的第i个子向量,
Figure BDA00029463895300000720
是kd的第i个子向量,
Figure BDA00029463895300000721
是vd的第i个子向量。
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure BDA00029463895300000722
Headd,i=softmax(Ad,i)vd,i 公式三十一
其中
Figure BDA0002946389530000081
为注意力相似性权重矩阵,
Figure BDA0002946389530000082
为多头注意力机制第i个子向量的输 出向量。
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;...;Headd,i...;Headd,h]Wd,i=1,2,...,h 公式三十二
其中,
Figure BDA0002946389530000083
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure BDA0002946389530000084
为可训练的参 数;
把多头注意力机制的输出向量cd经过残差操作和层归一化操作,最后经过一个全连接前向网络, 得到表征向量
Figure BDA0002946389530000085
计算公式如下:
yd=LayerNorm((cd)Wd,1+Fm) 公式三十三
Figure BDA0002946389530000086
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure BDA0002946389530000087
Figure BDA0002946389530000088
为可训练的参数。
一种融合语义与上下文信息的文本摘要系统,采用以上所述的一种融合语义与上下文信息的文本 摘要方法,包括:
训练集构建模块,采集文本内容以及摘要,构建文本-摘要对训练集;
文本预处理模块,用于对训练集中的每个训练样本进行预处理,包括对样本中包含的文本与摘要 进行分词处理和去除停用词;
网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络 和转换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量,两个向量 经过门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量。利用该表征向量的概率 分布向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习 网络模型;以及文档摘要模块,用于利用训练好的深度学习网络模型对输入的文本进行分析处理,输 出文本的摘要。
相较于现有技术,本发明具有以下有益效果:提供了一种卷积神经网络与改进变换网络的文本摘 要方法及系统,该方法及系统基于文本摘要对训练集训练基于卷积神经网络与改进变换网络的深度学 习网络模型,充分提取文档全局和局部信息,从而使模型能够更加充分地学习源文本的语义信息。引 入门控机制控制模块各层中的语义信息流向,提取上下文信息和关键信息,从而使得模型能够更好地 捕获文本的潜在语义信息,提高了对于生成摘要的准确精度,具有很强的实用性和广阔的应用前景。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1为本发明实施例的方法实现流程图;
附图2为本发明实施例的系统结构示意图。
具体实施方式
一种融合语义与上下文信息的文本摘要方法,包括以下步骤:
步骤A:采集文本内容以及摘要,构建文本-摘要对训练集;
步骤B:基于文本-摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;
步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要。
所述步骤B具体包括以下步骤:
步骤B1:遍历文本-摘要对训练集,对训练集中的每个训练样本,重复下述步骤B2-B7;
步骤B2:对每个训练样本,根据预训练的词向量矩阵分别对文本和摘要进行编码,得到文本的 初始表征向量
Figure BDA0002946389530000091
和摘要的初始表征向量
Figure BDA0002946389530000092
步骤B3:将步骤B2得到的初始表征向量
Figure BDA0002946389530000093
输入到卷积编码器中,得到文本的语义表征向量
Figure BDA0002946389530000094
步骤B4:将步骤B2得到的初始表征向量
Figure BDA0002946389530000095
输入到变换网络中,得到文本的上下文表征向量
Figure BDA0002946389530000096
步骤B5:使用门控单元融合步骤B3得到的文本的语义表征向量
Figure BDA0002946389530000097
和步骤B4得到的文本的上下 文表征向量
Figure BDA0002946389530000098
得到文本的表征向量
Figure BDA0002946389530000099
步骤B6:将步骤B5得到的文本的表征向量
Figure BDA00029463895300000910
和步骤B2得到的摘要的初始表征向量
Figure BDA00029463895300000911
输入到解码 器中,得到融合文本和摘要语义信息的表征向量
Figure BDA00029463895300000912
步骤B7:将步骤B5得到的表征向量
Figure BDA00029463895300000913
输入到全连接层,再通过Softmax,输出概率分布向量
Figure BDA00029463895300000914
|D|为词典大小,计算公式如下:
Figure BDA00029463895300000915
其中
Figure BDA00029463895300000916
为隐藏层权重矩阵,为可训练的参数;
步骤B8:根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用 随机梯度下降方法更新参数;
用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭 代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
Figure BDA0002946389530000101
其中M为摘要中词的个数;
Figure BDA0002946389530000102
为预测第i个摘要词时,目标单词在词典中的索引;
步骤B9:当深度学习网络模型产生的损失值小于设定阈值不再降低或者达到最大迭代次数,终 止深度学习模型的训练。
所述步骤B2具体包括以下步骤:
步骤B21:每个训练样本表示为(s,a),s表示文本,a表示摘要,分别对文本s和摘要a进行分 词并去除停用词;
文本s和摘要a经过分词及去除停用词后,可分别表示为:
Figure BDA0002946389530000103
Figure BDA0002946389530000104
其中,
Figure BDA0002946389530000105
为文本s经过分词及去除停用词后剩余词语中的第i个词,i=1,2,...,N;
Figure BDA0002946389530000106
为摘要a 经过分词及去除停用词后剩余词语中的第j个词,j=1,2,...,M;N为文本s经过分词及去除停用词后 剩余的词语数量,M为摘要a经过分词及去除停用词后剩余的词语数量;
步骤B22:对步骤B21得到的摘要s进行编码,得到摘要s的初始表征向量
Figure BDA0002946389530000107
表示为:
Figure BDA0002946389530000108
其中,
Figure BDA0002946389530000109
“+”表示向量加法操作,
Figure BDA00029463895300001010
为文本中第i个词
Figure BDA00029463895300001011
所对应的词 向量,i=1,2,...,N,通过在预训练的词向量矩阵
Figure BDA00029463895300001012
中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;
Figure BDA00029463895300001013
为文本s中第i个词
Figure BDA00029463895300001014
所对应的位置编码,i=1,2,...,N,编码方式如下:
Figure BDA00029463895300001015
Figure BDA00029463895300001016
其中,
Figure BDA00029463895300001017
表示位置编码
Figure BDA00029463895300001018
的偶数维对应的正弦值,
Figure BDA00029463895300001019
表示位置编码
Figure BDA00029463895300001020
的奇数维对应的余弦 值;
Figure BDA00029463895300001021
[]T表示转置操作;
步骤B23:对步骤B21得到的摘要a进行编码,得到摘要a的初始表征向量
Figure BDA00029463895300001022
表示为:
Figure BDA00029463895300001023
其中,
Figure BDA0002946389530000111
“+”表示向量加法操作,
Figure BDA0002946389530000112
为摘要中第j个词
Figure BDA0002946389530000113
所对应的词 向量,j=1,2,...,M,通过在预训练的词向量矩阵
Figure BDA0002946389530000114
中查找得到,其中d表示词向量的维度,|D| 是词典中的词语数;
Figure BDA0002946389530000115
为摘要中第j个词
Figure BDA0002946389530000116
所对应的位置编码,j=1,2,...,M,编码方式如下:
Figure BDA0002946389530000117
Figure BDA0002946389530000118
其中,
Figure BDA0002946389530000119
表示位置编码
Figure BDA00029463895300001110
的偶数维对应的正弦值,
Figure BDA00029463895300001111
表示位置编码
Figure BDA00029463895300001112
的奇数维对应的余弦值;
Figure BDA00029463895300001113
[]T表示转置操作。
所述步骤B3具体方法如下:将文本的初始表征向量
Figure BDA00029463895300001114
视作由
Figure BDA00029463895300001115
构成的向量序列,输 入到卷积编码器中,卷积编码器由L个卷积层构成,第一个卷积层的输入为文本的初始表征向量
Figure BDA00029463895300001116
第 l个卷积层的输出为第l+1个卷积层的输入,对第l个卷积层,卷积操作公式如下:
Figure BDA00029463895300001117
其中,
Figure BDA00029463895300001118
表示第l层第i个卷积核窗口的输出,
Figure BDA00029463895300001119
表示在卷积核窗口内的向 量序列,k为卷积核的大小,
Figure BDA00029463895300001120
为待学习的参数,2d表示特征映射的个数;
Figure BDA00029463895300001121
为偏置向 量,
Figure BDA00029463895300001122
为文本s的第i个词在第l个卷积层所对应的输出;
Figure BDA00029463895300001123
平分成两部分,分别为
Figure BDA00029463895300001124
Figure BDA00029463895300001125
使用门控单元融合两部分的信息,得到
Figure BDA00029463895300001126
计算公式如下:
Figure BDA00029463895300001127
其中,σ为sigmoid函数,
Figure BDA00029463895300001128
为可训练的参数;
将第L个卷积层的输出作为文本的语义表征向量
Figure BDA00029463895300001129
所述步骤B4中;具体包括以下步骤:
步骤B41:将得到文档的初始表征向量
Figure BDA00029463895300001130
分别乘以权重矩阵
Figure BDA00029463895300001131
得到新向量
Figure BDA00029463895300001132
Figure BDA00029463895300001133
计算公式如下:
Figure BDA00029463895300001134
其中,
Figure BDA0002946389530000121
为可训练的参数;
步骤B42:选择能够整除d的整数h,将步骤B41计算得到的新向量qe,ke,ve的最后一个维度平 均分成h个子向量,分别得到子向量序列[qe,1;…;qe,i;…;qe,h]、[ke,1;…;ke,i;…;ke,h]和 [ve,1;…;ve,i;…;ve,h],其中
Figure BDA0002946389530000122
是qe的第i个子向量,
Figure BDA0002946389530000123
是ke的 第i个子向量,
Figure BDA0002946389530000124
是ve的第i个子向量;
步骤B43:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure BDA0002946389530000125
Heade,i=softmax(Ae,i)ve,i 公式十四
其中
Figure BDA0002946389530000126
为注意力相似性权重矩阵,
Figure BDA0002946389530000127
为多头注意力机制第i个子向量的输 出向量;
步骤B44:把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;...;Heade,i...;Heade,h]We,i=1,2,...,h 公式十五
其中,
Figure BDA0002946389530000128
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure BDA0002946389530000129
为可训练的参数;
步骤B45:把多头注意力机制的输出向量ce和qe向量输入到门控单元中,得到门控注意力向量
Figure BDA00029463895300001210
计算公式如下:
f=tanh([ce;qe]Wf) 公式十六
g=sigmoid([ce;qe]Wg) 公式十七
Figure BDA00029463895300001217
其中,
Figure BDA00029463895300001218
是矩阵之间的元素乘积,
Figure BDA00029463895300001211
为可训练的参数;
步骤B46:对得到的门控注意力向量u进行残差操作和层归一化操作,再经过一个全连接前向网 络,得到文本的上下文表征向量
Figure BDA00029463895300001212
计算公式如下:
Figure BDA00029463895300001213
Figure BDA00029463895300001214
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure BDA00029463895300001215
Figure BDA00029463895300001216
为可训练的参数。。
所述步骤B5中,使用门控单元融合步骤B3得到的文本的语义表征向量
Figure BDA0002946389530000131
和步骤B4得到的文本 的上下文表征向量
Figure BDA0002946389530000132
得到文本的表征向量
Figure BDA0002946389530000133
计算公式如下:
Figure BDA0002946389530000134
其中,
Figure BDA00029463895300001320
表示哈达玛积,σ为sigmoid函数。
所述步骤B6具体包括以下步骤:
步骤B61:得到摘要的初始表征向量
Figure BDA0002946389530000135
之后,将
Figure BDA0002946389530000136
分别乘以权重矩阵
Figure BDA0002946389530000137
得到新向量
Figure BDA0002946389530000138
计算公式如下:
Figure BDA0002946389530000139
其中,
Figure BDA00029463895300001310
为可学习的参数;
步骤B62:选择能够整除d的整数h,将步骤B61计算得到的新向量qa,ka,va的最后一个维度平 均分成h个子向量,分别得到子向量序列[qa,1;...;qa,i;...;qa,h]、[ka,1;...;ka,i;...;ka,h]和 [va,1;...;va,i;...;va,h],其中
Figure BDA00029463895300001311
是qa的第i个子向量,
Figure BDA00029463895300001312
是ka的第i个子向量,
Figure BDA00029463895300001313
是va的第i个子向量;
步骤B63:将qa,ka,va的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Aa,i=qa,ika,i T,i=1,2,…h 公式二十三
其中,
Figure BDA00029463895300001314
为注意力相似性权重矩阵;
步骤B64:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
Figure BDA00029463895300001315
其中,
Figure BDA00029463895300001316
为上三角区域为负无穷的矩阵。掩码操作的目的是在原始矩阵上盖上一层掩膜, 从而屏蔽或选择一些特定元素;
步骤B65:将注意力相似性权重矩阵A′a,i经过softmax计算之后,再与va,i相乘,计算公式如下:
Heada,i=softmax(A′a,i)va,i 公式二十五
其中,
Figure BDA00029463895300001317
多头注意力机制第i个子向量的输出向量。
步骤B66:将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
ca=[Heada,1;...;Heada,i;...;Heada,h]Wc,i=1,2,...,h 公式二十六
其中,
Figure BDA00029463895300001318
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure BDA00029463895300001319
为可训练参数;
步骤B67:对得到的多头注意力机制的输出向量ca进行残差操作和层归一化操作,再经过一个全 连接前向网络,得到摘要的上下文信息表征向量
Figure BDA0002946389530000141
计算公式如下:
Figure BDA0002946389530000142
Figure BDA0002946389530000143
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure BDA0002946389530000144
Figure BDA0002946389530000145
为可训练参数;
步骤B68:将摘要的上下文表征向量
Figure BDA0002946389530000146
和文本的表征向量
Figure BDA0002946389530000147
输入到注意力层中,将
Figure BDA0002946389530000148
乘以权重矩 阵
Figure BDA0002946389530000149
得到向量
Figure BDA00029463895300001410
Figure BDA00029463895300001411
分别乘以权重矩阵
Figure BDA00029463895300001412
得到向量
Figure BDA00029463895300001413
计算 公式如下:
Figure BDA00029463895300001414
其中,
Figure BDA00029463895300001415
为可训练参数;
步骤B69:选择能够整除d的整数h,将步骤B68计算得到的新向量qd、kd、vd的最后一个维 度平均分成h个子向量,分别得到子向量序列[qd,1;…;qd,i;…;qd,h]、[kd,1;...;kd,i;...;kd,h]和 [vd,1;...;vd,i;...;vd,h],其中
Figure BDA00029463895300001416
是qd的第i个子向量,
Figure BDA00029463895300001417
是kd的第i个子向量,
Figure BDA00029463895300001418
是vd的第i个子向量。
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure BDA00029463895300001419
Headd,i=softmax(Ad,i)vd,i 公式三十一
其中
Figure BDA00029463895300001420
为注意力相似性权重矩阵,
Figure BDA00029463895300001421
为多头注意力机制第i个子向量的输 出向量。
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;...;Headd,i...;Headd,h]Wd,i=1,2,...,h 公式三十二
其中,
Figure BDA00029463895300001422
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure BDA00029463895300001423
为可训练的参 数;
把多头注意力机制的输出向量cd经过残差操作和层归一化操作,最后经过一个全连接前向网络, 得到表征向量
Figure BDA0002946389530000151
计算公式如下:
yd=LayerNorm((cd)Wd,1+Fm) 公式三十三
Figure BDA0002946389530000152
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure BDA0002946389530000153
Figure BDA0002946389530000154
为可训练的参数。
一种融合语义与上下文信息的文本摘要系统,采用以上所述的一种融合语义与上下文信息的文本 摘要方法,包括:
训练集构建模块,采集文本内容以及摘要,构建文本-摘要对训练集;
文本预处理模块,用于对训练集中的每个训练样本进行预处理,包括对样本中包含的文本与摘要 进行分词处理和去除停用词;
网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转 换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量,两个向量经过 门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量。利用该表征向量的概率分布 向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络 模型;以及文档摘要模块,用于利用训练好的深度学习网络模型对输入的文本进行分析处理,输出文 本的摘要。
实施例1:
如图所示,一种融合语义与上下文信息的文本摘要方法,其特征在于:包括以下步骤:
步骤A:采集文档的文本内容以及摘要,构建包括文档、摘要和文档与摘要关联数据的文本-摘要 训练集SA;
步骤B:基于文本-摘要对训练集SA,训练基于融合卷积神经网络与改进变换网络的深度学习网 络模型M;
步骤C:自动文摘系统接受文本内容,将文本输入到训练好的深度学习网络模型M中,输出文本 的摘要。
所述步骤B具体包括以下步骤:
步骤B1:对训练集SA中的每个文本、摘要进行编码,得到文本的初始表征向量
Figure BDA0002946389530000155
和摘要的初始 表征向量
Figure BDA0002946389530000156
步骤B2:将步骤B1得到的初始表征向量
Figure BDA0002946389530000161
输入到卷积编码器中,得到文本的局部上下文信息表 征向量Fl
步骤B3:将步骤B1得到的初始表征向量
Figure BDA0002946389530000162
输入到改进变换网络中,得到文本的全局上下文信息 表征向量Fg
步骤B4:用神经网络的GTU门控单元将步骤B2得到的文本的局部上下文信息表征向量Fl和步 骤B3得到的全局上下文信息表征向量Fg融合起来,得到融合向量F;
步骤B5:将步骤B4得到的融合向量F和摘要的初始表征向量输入到深度学习网络模型的解码器 模块中,得到表征向量Fd
步骤B6:将步骤B5得到的表征向量输入到全连接层和Softmax层,根据目标损失函数loss,利 用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B7:当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大 迭代次数,则终止神经网络模型的训练。
所述步骤B1具体包括以下步骤:
步骤B11:遍历训练集SA,SA中的每个训练样本表示为sa=(s,a),其中s表示文本,a表示摘 要;对训练样本sa中的文档s和摘要a进行分词处理去除停用词;
其中,文本s和摘要a分别经过分词及去除停用词后,表示为:
Figure BDA0002946389530000163
Figure BDA0002946389530000164
其中,
Figure BDA0002946389530000165
Figure BDA0002946389530000166
分别为文本s和摘要a经过分词及去除停用词后剩余词语中的第i个词和第j 个词,i=1,2,...,N,j=1,2,...,M,N、M分别为文本s和摘要a经过分词及去除停用词后剩余的词语 数量;
步骤B12:对经过分词及去除停用词后的摘要s进行编码,得到摘要s的初始表征向量
Figure BDA0002946389530000167
Figure BDA0002946389530000168
表 示为:
Figure BDA0002946389530000169
其中,
Figure RE-GDA0003103393170000169
为第i个词
Figure RE-GDA00031033931700001610
所对应的词向量,通过在预训练的词向量矩阵
Figure RE-GDA00031033931700001611
中查找得 到,其中d表示词向量的维度,|D|是词典D中的词语数;
Figure RE-GDA00031033931700001612
为文本s中第i个词
Figure RE-GDA00031033931700001613
所对应 的位置信息的编码;编码方式如下:
Figure BDA0002946389530000171
Figure BDA0002946389530000172
其中,p(i,2j)表示位于文本中第i个词的第j个维度的值,i表示该词在文档中出现的位置,位置 编码的每一维对应一个正弦信号。
Figure RE-GDA0003103393170000173
是文本s的初始表征向量
Figure RE-GDA0003103393170000174
中第t个单词
Figure RE-GDA0003103393170000175
及其 位置信息pt的相加表示,“+”表示向量加法操作,
Figure RE-GDA0003103393170000176
文本s的初始表征向量
Figure RE-GDA0003103393170000177
步骤B13:对经过分词及去除停用词后的摘要a进行编码,得到摘要a的初始表征向量
Figure BDA0002946389530000178
Figure BDA0002946389530000179
表 示为:
Figure BDA00029463895300001710
其中,
Figure RE-GDA00031033931700001710
为第i个词
Figure RE-GDA00031033931700001711
所对应的词向量,通过在预训练的词向量矩阵
Figure RE-GDA00031033931700001712
中查找得 到,其中d表示词向量的维度,|D|是词典D中的词语数;
Figure RE-GDA00031033931700001713
为摘要a中第i个词
Figure RE-GDA00031033931700001714
所对应 的位置信息的编码;编码方式如下:
Figure BDA00029463895300001715
Figure BDA00029463895300001716
其中,p(i,2j)表示位于摘要中第i个词的第j个维度的值,i表示该词在摘要中出现的位置,位置编码 的每一维对应一个正弦信号。
Figure RE-GDA00031033931700001717
是摘要a的初始表征向量
Figure RE-GDA00031033931700001718
中第t个单词
Figure RE-GDA00031033931700001719
及其位置 信息pt的相加表示,“+”表示向量加法操作,
Figure RE-GDA00031033931700001720
摘要a的初始表征向量
Figure RE-GDA00031033931700001721
所述步骤B2具体包括以下步骤:
步骤B21:将文档的初始表征向量
Figure BDA00029463895300001722
视作词向量构成的序列,输入到深度学习网络模型的卷积编 码器中,最后输出文档的局部上下文信息表征向量Fl
其中卷积编码器由L个卷积块构成,blockl,l=1,2,K L表示第l个卷积块,每个block相互独立,卷积 块blockl的计算公式如下:
Figure BDA00029463895300001723
其中,
Figure BDA0002946389530000181
表示该卷积窗口内的向量序列,k为卷积核的大小,Wl∈R2d×kd为可学习的 参数,2d表示特征映射的个数;
Figure BDA0002946389530000182
为偏置向量;
Figure BDA0002946389530000183
为第l个卷积块第i个词所对应的输 入,
Figure BDA0002946389530000184
为第l层卷积block第i个词所对应的输出,第一层卷积的输入为文档的初始表征向量
Figure BDA0002946389530000185
Figure BDA0002946389530000186
按d维平分成两部分,分别为
Figure BDA0002946389530000187
Figure BDA0002946389530000188
使用门控单元融合两部分的信息,得到d维向 量,计算公式如下式所示
Figure BDA0002946389530000189
其中,σ为sigmoid函数,Wa∈Rd×d,Wb∈Rd×d为可训练的参数,最后一个卷积块的输出为卷积编码 器的输出,即文档的局部上下文信息表征向量Fl∈RN×d
所述步骤B3具体包括以下步骤:
步骤B31:将得到文档的初始表征向量
Figure BDA00029463895300001810
分别乘以权重矩阵
Figure BDA00029463895300001811
得到新向量qe∈RN×d、 ke∈RN×d、ve∈RN×d,其中N为文档中词的个数,d表示词向量的维度,计算公式如下:
Figure BDA00029463895300001812
其中,
Figure BDA00029463895300001813
为可训练的参数。
步骤B32:选择能够整除d的整数h,将步骤B31计算得到的新向量qe,ke,ve的最后一个维度平均 分成h个子向量,分别得到子向量序列[qe,1;...;qe,i;...;qe,h]、[ke,1;...;ke,i;...;ke,h]和[ve,1;...;ve,i;...;ve,h], 其中qe,i∈RN×(d/h),i=1,2,...h是qe的第i个子向量,ke,i∈RN×(d/h),i=1,2,...h是ke的第i个子向量, ve,i∈RN×(d/h),i=1,2,...h是ve的第i个子向量。
步骤B33:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure BDA00029463895300001814
Heade,i=softmax(Ae,i)ve,i (公式13)
其中Ae,i∈RN×N为注意力相似性权重矩阵,Heade,i∈RN×(d/h)为多头注意力机制第i个子向量的输出向 量;
步骤B34:把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;Heade,2;...;Heade,h]·We,i=1,2,...,h (公式14)
其中,ce∈RN×d为多头注意力机制的输出向量,“·”为矩阵相乘操作,“;”表示向量连接操作。We∈Rd×d为可训练的参数;
步骤B35:把多头注意力机制的输出向量ce和qe向量输入到门控单元中,得到门控注意力向量 u∈RN×d,计算公式如下:
f=tanh([ce;qe]·Wf) (公式15)
g=sigmoid([ce;qe]·Wg) (公式16)
Figure BDA0002946389530000197
其中,
Figure BDA0002946389530000198
是矩阵之间的元素乘积,Wf∈R2d×d、Wg∈R2d×d为可训练的参数;
步骤B36:把得到的门控注意力向量u进行残差操作和层归一化操作,再经过一个全连接前向网 络,得到文档的全局上下文信息表征向量Fg∈RN×d,计算公式如下:
Figure BDA0002946389530000191
Fg=max(0,yeWe,2+be,1)We,3+be,2 (公式19)
其中LayerNorm表示层归一化操作,We,1∈Rd×d,We,2∈Rd×d,We,3∈Rd×d,be,1∈RN×d,be,2∈RN×d为 可训练的参数。
所述步骤B4具体为:
用门控单元融合步骤B2得到的文档的局部上下文信息表征向量Fl∈RN×d与步骤B3得到的文档的 全局上下文信息表征向量Fg∈RN×d,得到融合向量F∈RN×d,计算公式如下;
Figure BDA0002946389530000199
其中,
Figure BDA00029463895300001910
是矩阵之间的元素乘积,σ为sigmoid函数。
所述步骤B5具体包括以下步骤:
步骤B51:得到摘要的初始表征向量
Figure BDA0002946389530000192
之后,将
Figure BDA0002946389530000193
分别乘以权重矩阵
Figure BDA0002946389530000194
得到新向量 qm∈RM×d、km∈RM×d、vm∈RM×d,其中M为摘要中词的个数,d表示词向量的维度,计算公式如下:
Figure BDA0002946389530000195
其中,
Figure BDA0002946389530000196
为可学习的参数;
步骤B52:选择能够整除d的整数h,将步骤B51计算得到的新向量qm,km,vm的最后一个维度平 均分成h个子向量,分别得到子向量序列[qm,1;...;qm,i;...;qm,h]、[km,1;…;km,i;…;km,h]和 [vm,1;...;vm,i;...;vm,h],其中qm,i∈RM×(d/h),i=1,2,...h是qm的第i个子向量,km,i∈RM×(d/h),i=1,2,...h是km的第i个子向量,vm,i∈RM×(d/h),i=1,2,...h是vm的第i个子向量;
步骤B53:将qm,km,vm的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Am,i=qm,ikm,i T,i=1,2,...h (公式22)
其中,Am,i∈RM×M为注意力相似性权重矩阵;
步骤B54:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
Figure BDA0002946389530000201
其中,Wm∈RM×M为上三角区域为负无穷的矩阵。掩码操作的目的是在原始矩阵上盖上一层掩膜, 从而屏蔽或选择一些特定元素。
步骤B55:将注意力相似性权重矩阵A′m,i经过softmax计算之后,再与vm,i相乘,计算公式如下:
am,i=softmax(A′m,i)vm,i (公式24)
其中,am,i∈RM×(d/h)多头注意力机制第i个子向量的输出向量。
步骤B56:把将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
cm=[am,1;...;am,i;...;am,h]·Wc,i=1,2,...,h (公式25)
其中,cm∈RM×d为多头注意力机制的输出向量,“·”为矩阵相乘操作,“;”表示向量连接操作, Wc∈Rd×d为可训练参数;
步骤B57:把得到的多头注意力机制的输出向量cm进行残差操作和层归一化操作,再经过一个全 连接前向网络,得到摘要的全局上下文信息表征向量
Figure BDA0002946389530000202
计算公式如下:
Figure BDA0002946389530000203
Fm=max(0,ymWm,2+bm,1)Wm,3+bm,2 (公式27)
其中LayerNorm表示层归一化操作,Wm,1∈Rd×d、Wm,2∈Rd×d、Wm,3∈Rd×d、bm,1∈RN×d、bm,2∈RN×d为可训练参数;
步骤B58:将摘要的全局上下文信息表征向量Fm和融合向量F输入到编码器-解码器注意力层中, 将得到的摘要全局上下文信息表征向量Fm乘以权重矩阵
Figure BDA0002946389530000204
得到新向量qd∈RN×d。将融合向量F 分别乘以权重矩阵
Figure BDA0002946389530000205
得到新向量kd∈RM×d、vd∈RM×d,其中M为摘要中词的个数,d表示 词向量的维度,计算公式如下:
Figure BDA0002946389530000206
其中,
Figure BDA0002946389530000207
为可训练参数;
步骤B59:选择能够整除d的整数h,将步骤B58计算得到的新向量qd、kd、vd的最后一个维度 平均分成h个子向量,分别得到子向量序列[qd,1;...;qd,i;...;qd,h]、[kd,1;...;kd,i;...;kd,h]和 [vd,1;…;vd,i;…;vd,h],其中qd,i∈RN×(d/h),i=1,2,…h是qd的第i个子向量,kd,i∈RM×(d/h),i=1,2,…h是kd的第i个子向量,vd,i∈RM×(d/h),i=1,2,…h是vd的第i个子向量。
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure BDA0002946389530000211
Headd,i=softmax(Ad,i)vd,i (公式30)
其中Ad,i∈RN×M为注意力相似性权重矩阵,Headd,i∈RN×(d/h)为多头注意力机制第i个子向量的输 出向量;
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;Headd,2;...;Headd,h]·Wd,i=1,2,...,h (公式31)
其中,cd∈RN×d为多头注意力机制的输出向量,“·”为矩阵相乘操作,“;”表示向量连接操作, Wd∈Rd×d为可训练的参数;
把多头注意力机制的输出向量cd经过残差操作和层归一化操作,最后经过一个全连接前向网络, 得到表征向量Fd∈RN×d,计算公式如下:
yd=LayerNorm((cd)Wd,1+Fm) (公式32)
Fd=max(0,ydWd,2+bd,1)Wd,3+bd,2 (公式33)
其中LayerNorm表示层归一化操作,Wd,1∈Rd×d、Wd,2∈Rd×d、Wd,3∈Rd×d、bd,1∈RN×d、bd,2∈RN×d为可训练的参数。
所述步骤B6具体包括以下步骤:
步骤B61:将步骤B5得到的表征向量Fd经过全连接层,再经过softmax层进行归一化处理,计 算概率分布向量Pv∈RN×|D|,|D|为词典大小,计算公式如下:
Pv=soft max(FdWo) (公式34)
其中Wo∈Rd×|D|为隐藏层权重矩阵,为可训练的参数;
步骤B62:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反 向传播迭代更新模型参数,以最小化损失函数来训练模型。
其中最小化损失函数Loss的计算公式如下:
Figure BDA0002946389530000221
其中M为摘要中词的个数;
Figure BDA0002946389530000222
为预测第i个摘要词时,目标单词在词典中的索引。
以上所述的一种融合语义与上下文信息的文本摘要方法:其所使用的系统包括训练集构建模块, 用于采集文档内容以及摘要,构建文档-摘要对训练集SA;
所述系统还包括文本预处理模块,用于对训练集输入文本进行预处理,包括对输入文本进行分词 处理和去除停用词,得到经过预处理的文本;
所述系统还包括特征提取模块,用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词 的词向量,并且结合位信息得到文档和摘要的文本表征向量;
所述系统还包括网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型 的卷积神经网络和转换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征 向量,两个向量经过门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量。利用该 表征向量的概率分布向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训 练,得到深度学习网络模型;
所述系统还包括文档处理模块,用于利用训练好的深度学习网络模型对输入的文档进行分析处 理,输出文档的摘要。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此, 本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本 申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框 图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流 程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编 程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个 方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计 算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装 置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编 程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指 令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步 骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业 的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离 本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型, 仍属于本发明技术方案的保护范围。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明 技术方案的范围时,均属于本发明的保护范围。

Claims (7)

1.一种融合语义与上下文信息的文本摘要方法,其特征在于:包括以下步骤:
步骤A:采集文本内容以及摘要,构建文本-摘要对训练集;
步骤B:基于文本-摘要对训练集,训练融合语义与上下文信息的深度学习网络模型;
步骤C:将文本内容输入步骤B训练好的深度学习网络模型中,输出文本的摘要;所述步骤B具体包括以下步骤:
步骤B1:遍历文本-摘要对训练集,对训练集中的每个训练样本,重复下述步骤B2-B7;
步骤B2:对每个训练样本,根据预训练的词向量矩阵分别对文本和摘要进行编码,得到文本的初始表征向量
Figure FDA0003939726780000011
和摘要的初始表征向量
Figure FDA0003939726780000012
步骤B3:将步骤B2得到的初始表征向量
Figure FDA0003939726780000013
输入到卷积编码器中,得到文本的语义表征向量
Figure FDA0003939726780000014
步骤B4:将步骤B2得到的初始表征向量
Figure FDA0003939726780000015
输入到变换网络中,得到文本的上下文表征向量
Figure FDA0003939726780000016
步骤B5:使用门控单元融合步骤B3得到的文本的语义表征向量
Figure FDA0003939726780000017
和步骤B4得到的文本的上下文表征向量
Figure FDA0003939726780000018
得到文本的表征向量
Figure FDA0003939726780000019
步骤B6:将步骤B5得到的文本的表征向量
Figure FDA00039397267800000110
和步骤B2得到的摘要的初始表征向量
Figure FDA00039397267800000111
输入到解码器中,得到融合文本和摘要语义信息的表征向量
Figure FDA00039397267800000112
步骤B7:将步骤B6得到的表征向量
Figure FDA00039397267800000113
输入到全连接层,再通过Softmax,输出概率分布向量
Figure FDA00039397267800000114
|D|为词典大小,计算公式如下:
Figure FDA00039397267800000115
其中
Figure FDA00039397267800000116
为隐藏层权重矩阵,为可训练的参数;
步骤B8:根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
Figure FDA0003939726780000021
其中M为摘要中词的个数;
Figure FDA0003939726780000022
为预测第i个摘要词时,目标单词在词典中的索引;
步骤B9:当深度学习网络模型产生的损失值小于设定阈值且损失值不再降低,或者达到最大迭代次数,终止深度学习模型的训练。
2.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B2具体包括以下步骤:
步骤B21:每个训练样本表示为(s,a),s表示文本,a表示摘要,分别对文本s和摘要a进行分词并去除停用词;
文本s和摘要a经过分词及去除停用词后,可分别表示为:
Figure FDA0003939726780000023
Figure FDA0003939726780000024
其中,
Figure FDA0003939726780000025
为文本s经过分词及去除停用词后剩余词语中的第i个词,i=1,2,...,N;
Figure FDA0003939726780000026
为摘要a经过分词及去除停用词后剩余词语中的第j个词,j=1,2,...,M;N为文本s经过分词及去除停用词后剩余的词语数量,M为摘要a经过分词及去除停用词后剩余的词语数量;
步骤B22:对步骤B21得到的文本s进行编码,得到文本s的初始表征向量
Figure FDA0003939726780000027
表示为:
Figure FDA0003939726780000028
其中,
Figure FDA0003939726780000029
“+”表示向量加法操作,
Figure FDA00039397267800000210
为文本s中第i个词
Figure FDA00039397267800000211
所对应的词向量,i=1,2,...,N,通过在预训练的词向量矩阵
Figure FDA00039397267800000212
中查找得到,其中d表示词向量的维度,|D|是词典中的词语数;
Figure FDA0003939726780000031
为文本s中第i个词
Figure FDA0003939726780000032
所对应的位置编码,i=1,2,...,N,编码方式如下:
Figure FDA0003939726780000033
Figure FDA0003939726780000034
其中,
Figure FDA0003939726780000035
表示位置编码
Figure FDA0003939726780000036
的偶数维对应的正弦值,
Figure FDA0003939726780000037
表示位置编码
Figure FDA0003939726780000038
的奇数维对应的余弦值;
Figure FDA0003939726780000039
[]T表示转置操作;
步骤B23:对步骤B21得到的摘要a进行编码,得到摘要a的初始表征向量
Figure FDA00039397267800000310
表示为:
Figure FDA00039397267800000311
其中,
Figure FDA00039397267800000312
“+”表示向量加法操作,
Figure FDA00039397267800000313
为摘要a中第j个词
Figure FDA00039397267800000314
所对应的词向量,j=1,2,...,M,通过在预训练的词向量矩阵
Figure FDA00039397267800000315
中查找得到,其中d表示词向量的维度,|D|是词典中的词语数;
Figure FDA00039397267800000316
为摘要a中第j个词
Figure FDA00039397267800000317
所对应的位置编码,j=1,2,...,M,编码方式如下:
Figure FDA00039397267800000318
Figure FDA00039397267800000319
其中,
Figure FDA00039397267800000320
表示位置编码
Figure FDA00039397267800000321
的偶数维对应的正弦值,
Figure FDA00039397267800000322
表示位置编码
Figure FDA00039397267800000323
的奇数维对应的余弦值;
Figure FDA00039397267800000324
[]T表示转置操作。
3.根据权利要求2所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B3具体方法如下:将文本的初始表征向量
Figure FDA00039397267800000325
视作由
Figure FDA00039397267800000326
构成的向量序列,输入到卷积编码器中,卷积编码器由L个卷积层构成,第一个卷积层的输入为文本的初始表征向量
Figure FDA0003939726780000041
第l个卷积层的输出为第l+1个卷积层的输入,对第l个卷积层,卷积操作公式如下:
Figure FDA0003939726780000042
其中,
Figure FDA0003939726780000043
表示第l层第i个卷积核窗口的输出,
Figure FDA0003939726780000044
Figure FDA0003939726780000045
表示在卷积核窗口内的向量序列,k为卷积核的大小,
Figure FDA0003939726780000046
为待学习的参数,2d表示特征映射的个数;
Figure FDA0003939726780000047
为偏置向量,
Figure FDA0003939726780000048
为文本s的第i个词在第l个卷积层所对应的输出;
Figure FDA0003939726780000049
平分成两部分,分别为
Figure FDA00039397267800000410
Figure FDA00039397267800000411
使用门控单元融合两部分的信息,得到
Figure FDA00039397267800000412
计算公式如下:
Figure FDA00039397267800000413
其中,σ为sigmoid函数,
Figure FDA00039397267800000414
为可训练的参数;将第L个卷积层的输出作为文本的语义表征向量
Figure FDA00039397267800000415
4.根据权利要求2所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B4中;具体包括以下步骤:
步骤B41:将得到文档的初始表征向量
Figure FDA00039397267800000416
分别乘以权重矩阵
Figure FDA00039397267800000417
得到新向量
Figure FDA00039397267800000418
计算公式如下:
Figure FDA00039397267800000419
Figure FDA00039397267800000420
Figure FDA00039397267800000421
其中,
Figure FDA00039397267800000422
为可训练的参数;
步骤B42:选择能够整除d的整数h,将步骤B41计算得到的新向量qe,ke,ve的最后一个维度平均分成h个子向量,分别得到子向量序列[qe,1;...;qe,i;...;qe,h]、[ke,1;...;ke,i;...;ke,h]和[ve,1;...;ve,i;...;ve,h],其中
Figure FDA00039397267800000423
是qe的第i个子向量,
Figure FDA0003939726780000051
是ke的第i个子向量,
Figure FDA0003939726780000052
是ve的第i个子向量;
步骤B43:将qe、ke、ve的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure FDA0003939726780000053
Heade,i=softmax(Ae,i)ve,i 公式十四
其中
Figure FDA0003939726780000054
为注意力相似性权重矩阵,
Figure FDA0003939726780000055
为多头注意力机制第i个子向量的输出向量;
步骤B44:把h个子向量的输出向量连接起来作为多注意力机制的输出向量:
ce=[Heade,1;...;Heade,i...;Heade,h]We,i=1,2,...,h 公式十五
其中,
Figure FDA0003939726780000056
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure FDA0003939726780000057
为可训练的参数;
步骤B45:把多头注意力机制的输出向量ce和qe向量输入到门控单元中,得到门控注意力向量
Figure FDA0003939726780000058
计算公式如下:
f=tanh([ce;qe]Wf) 公式十六
g=sigmoid([ce;qe]Wg) 公式十七
Figure FDA0003939726780000059
其中,
Figure FDA00039397267800000510
是矩阵之间的元素乘积,
Figure FDA00039397267800000511
为可训练的参数;
步骤B46:对得到的门控注意力向量u进行残差操作和层归一化操作,再经过一个全连接前向网络,得到文本的上下文表征向量
Figure FDA00039397267800000512
计算公式如下:
Figure FDA00039397267800000513
Figure FDA00039397267800000514
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure FDA0003939726780000061
Figure FDA0003939726780000062
为可训练的参数。
5.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B5中,使用门控单元融合步骤B3得到的文本的语义表征向量
Figure FDA0003939726780000063
和步骤B4得到的文本的上下文表征向量
Figure FDA0003939726780000064
得到文本的表征向量
Figure FDA0003939726780000065
计算公式如下:
Figure FDA0003939726780000066
其中,
Figure FDA0003939726780000067
表示哈达玛积,σ为sigmoid函数。
6.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法,其特征在于:所述步骤B6具体包括以下步骤:
步骤B61:得到摘要的初始表征向量
Figure FDA0003939726780000068
之后,将
Figure FDA0003939726780000069
分别乘以权重矩阵
Figure FDA00039397267800000610
Figure FDA00039397267800000611
得到新向量
Figure FDA00039397267800000612
计算公式如下:
Figure FDA00039397267800000613
其中,
Figure FDA00039397267800000614
为可学习的参数;
步骤B62:选择能够整除d的整数h,将步骤B61计算得到的新向量qa,ka,va的最后一个维度平均分成h个子向量,分别得到子向量序列[qa,1;...;qa,i;...;qa,h]、[ka,1;...;ka,i;...;ka,h]和[va,1;...;va,i;...;va,h],其中
Figure FDA00039397267800000615
是qa的第i个子向量,
Figure FDA00039397267800000616
是ka的第i个子向量,
Figure FDA00039397267800000617
是va的第i个子向量;
步骤B63:将qa,ka,va的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Aa,i=qa,ika,i T,i=1,2,...h 公式二十三
其中,
Figure FDA00039397267800000618
为注意力相似性权重矩阵;
步骤B64:对每个注意力相似性权重矩阵做掩码操作,计算公式如下:
Figure FDA0003939726780000071
其中,
Figure FDA0003939726780000072
为上三角区域为负无穷的矩阵;掩码操作的目的是在原始矩阵上盖上一层掩膜,从而屏蔽或选择一些特定元素;
步骤B65:将注意力相似性权重矩阵A′a,i经过softmax计算之后,再与va,i相乘,计算公式如下:
Heada,i=softmax(A′a,i)va,i 公式二十五
其中,
Figure FDA0003939726780000073
多头注意力机制第i个子向量的输出向量;
步骤B66:将h个子向量的输出向量连接起来作为多头注意力机制的输出向量,计算公式如下:
ca=[Heada,1;...;Heada,i;...;Heada,h]Wc,i=1,2,...,h 公式二十六
其中,
Figure FDA0003939726780000074
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure FDA0003939726780000075
为可训练参数;
步骤B67:对得到的多头注意力机制的输出向量ca进行残差操作和层归一化操作,再经过一个全连接前向网络,得到摘要的上下文信息表征向量
Figure FDA0003939726780000076
计算公式如下:
Figure FDA0003939726780000077
Figure FDA0003939726780000078
其中LayerNorm表示层归一化操作,max为取最大值函数,
Figure FDA0003939726780000079
Figure FDA00039397267800000710
为可训练参数;
步骤B68:将摘要的上下文表征向量
Figure FDA00039397267800000711
和文本的表征向量
Figure FDA00039397267800000712
输入到注意力层中,将
Figure FDA00039397267800000713
乘以权重矩阵
Figure FDA00039397267800000714
得到向量
Figure FDA00039397267800000715
Figure FDA00039397267800000716
分别乘以权重矩阵
Figure FDA00039397267800000717
得到向量
Figure FDA00039397267800000718
计算公式如下:
Figure FDA0003939726780000081
Figure FDA0003939726780000082
Figure FDA0003939726780000083
其中,
Figure FDA0003939726780000084
为可训练参数;
步骤B69:选择能够整除d的整数h,将步骤B68计算得到的新向量qd、kd、vd的最后一个维度平均分成h个子向量,分别得到子向量序列[qd,1;...;qd,i;...;qd,h]、[kd,1;...;kd,i;...;kd,h]和[vd,1;...;vd,i;...;vd,h],其中
Figure FDA0003939726780000085
是qd的第i个子向量,
Figure FDA0003939726780000086
是kd的第i个子向量,
Figure FDA0003939726780000087
是vd的第i个子向量;
将qd、kd、vd的每个对应的子向量输入到注意力机制模块中,计算公式如下:
Figure FDA0003939726780000088
Headd,i=softmax(Ad,i)vd,i 公式三十一
其中,
Figure FDA0003939726780000089
为注意力相似性权重矩阵,
Figure FDA00039397267800000810
为多头注意力机制第i个子向量的输出向量;
然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量:
cd=[Headd,1;...;Headd,i...;Headd,h]Wd,i=1,2,...,h 公式三十二
其中,
Figure FDA00039397267800000811
为多头注意力机制的输出向量,[;]表示向量连接操作,
Figure FDA00039397267800000812
为可训练的参数;
把多头注意力机制的输出向量cd经过残差操作和层归一化操作,最后经过一个全连接前向网络,得到表征向量
Figure FDA00039397267800000813
计算公式如下:
Figure FDA00039397267800000814
Figure FDA00039397267800000815
其中,LayerNorm表示层归一化操作,max为取最大值函数,
Figure FDA0003939726780000091
Figure FDA0003939726780000092
为可训练的参数。
7.一种融合语义与上下文信息的文本摘要系统,其特征在于:采用权利要求1、2、3、4、5、6任一项所述的一种融合语义与上下文信息的文本摘要方法,包括:
训练集构建模块,采集文本内容以及摘要,构建文本-摘要对训练集;
文本预处理模块,用于对训练集中的每个训练样本进行预处理,包括对样本中包含的文本与摘要进行分词处理和去除停用词;
网络训练模块,用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转换编码器中,得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量,两个向量经过门控单元得到融合向量,进而输入到转换解码器中得到最后的表征向量,利用该表征向量的概率分布向量以及训练集中的标注,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;以及文档摘要模块,用于利用训练好的深度学习网络模型对输入的文本进行分析处理,输出文本的摘要。
CN202110197752.1A 2021-02-22 2021-02-22 一种融合语义与上下文信息的文本摘要方法及系统 Active CN113157855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110197752.1A CN113157855B (zh) 2021-02-22 2021-02-22 一种融合语义与上下文信息的文本摘要方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110197752.1A CN113157855B (zh) 2021-02-22 2021-02-22 一种融合语义与上下文信息的文本摘要方法及系统

Publications (2)

Publication Number Publication Date
CN113157855A CN113157855A (zh) 2021-07-23
CN113157855B true CN113157855B (zh) 2023-02-21

Family

ID=76883764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110197752.1A Active CN113157855B (zh) 2021-02-22 2021-02-22 一种融合语义与上下文信息的文本摘要方法及系统

Country Status (1)

Country Link
CN (1) CN113157855B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569428B2 (en) * 2013-08-30 2017-02-14 Getgo, Inc. Providing an electronic summary of source content
CN108804495B (zh) * 2018-04-02 2021-10-22 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
CN111274375B (zh) * 2020-01-20 2022-06-14 福州大学 一种基于双向gru网络的多轮对话方法及系统
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN111897949B (zh) * 2020-07-28 2021-10-26 北京工业大学 一种基于Transformer的引导性文本摘要生成方法

Also Published As

Publication number Publication date
CN113157855A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN106844348B (zh) 一种汉语句子功能成分分析方法
Shini et al. Recurrent neural network based text summarization techniques by word sequence generation
CN114881042B (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
Liu et al. A multi-label text classification model based on ELMo and attention
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN114254645A (zh) 一种人工智能辅助写作系统
Dhivyaa et al. Transliteration based generative pre-trained transformer 2 model for Tamil text summarization
Fu et al. RepSum: Unsupervised dialogue summarization based on replacement strategy
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及系统
CN113157855B (zh) 一种融合语义与上下文信息的文本摘要方法及系统
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Maw et al. Aspect based Sentiment Analysis for travel and tourism in Myanmar Language using LSTM
Liu et al. An improved BERT and syntactic dependency representation model for sentiment analysis
Jin et al. A Comparative Study of Korean Feature Granularity Based on Hybrid Neural Network
Yolchuyeva Novel NLP Methods for Improved Text-To-Speech Synthesis
Sun et al. Text sentiment polarity classification method based on word embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant