CN114969313A - 摘要抽取方法、装置、计算机设备及计算机可读存储介质 - Google Patents

摘要抽取方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114969313A
CN114969313A CN202210652713.0A CN202210652713A CN114969313A CN 114969313 A CN114969313 A CN 114969313A CN 202210652713 A CN202210652713 A CN 202210652713A CN 114969313 A CN114969313 A CN 114969313A
Authority
CN
China
Prior art keywords
vector
text
sentence
abstract
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210652713.0A
Other languages
English (en)
Other versions
CN114969313B (zh
Inventor
琚生根
张翔
毛兴静
张玉慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210652713.0A priority Critical patent/CN114969313B/zh
Publication of CN114969313A publication Critical patent/CN114969313A/zh
Application granted granted Critical
Publication of CN114969313B publication Critical patent/CN114969313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种摘要抽取方法、装置、计算机设备及计算机可读存储介质。摘要抽取方法,包括:将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量;利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量;将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量;将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。通过对文本的全局语义信息进行提取,得到文本重构向量,再将文本重构向量与句向量融合,使模型更加关注重要的整体语义而非琐碎的局部信息,提高了生成的摘要的准确度。

Description

摘要抽取方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种摘要抽取方法、装置、计算机设备及计算机可读存储介质。
背景技术
近年来随着互联网的快速发展,人类获取信息的渠道越来越多,阅读时间也变得越来越碎片化。在这个信息过载的时代,如何使得用户在海量的文本中获取到所需要的信息,以帮助其进行更高效快速的阅读成为了一个亟待解决的问题。通过阅读文本的摘要进行快速预览,是一个很好的解决方案。但是人工进行摘要成本十分昂贵,并且相较于信息的快速增长,其效率也显得非常低下,于是人们希望可以借助计算机自动对文本进行处理得到摘要。
自动文本摘要技术是自然语言处理(Natural Language Processing,NLP)领域的研究热点,根据摘要的实现方式,可以将其分为抽象式摘要(Abstractive Summarization)和抽取式摘要(Extractive Summarization)。抽取式摘要是直接抽取原文中重要的句子来组成摘要。抽取式摘要由于是直接抽取原文句子作为摘要,所以在事实一致性和语义流畅方面有着天然的优势,并且计算速度更快。
然而,现有的摘要抽取方法容易学习到一些简单的局部非重要信息,从而使得生成的摘要的准确度不高。
发明内容
有鉴于此,本申请实施例的目的是提供一种摘要抽取方法、装置、计算机设备及计算机可读存储介质,能够解决现有的摘要抽取方法生成的摘要的准确度不高的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种摘要抽取方法,包括:
将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量;
利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量;
将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量;
将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。
根据本申请公开的一种具体实施方式,所述利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量,包括:
将所述文本向量输入至第一隐藏层,并经过预设激活函数,得到所述目标文本在方面上的文本方面分布;
根据方面嵌入矩阵和所述文本方面分布,得到所述文本重构向量。
根据本申请公开的一种具体实施方式,所述利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量,包括:
将所述文本向量输入至第二隐藏层,得到所述目标文本的潜在特征;
根据所述潜在特征,得到所述文本的文本主题分布;
根据所述文本主题分布和主题嵌入矩阵,得到所述文本重构向量。
根据本申请公开的一种具体实施方式,所述全局语义信息融入模块包括多头自注意力子模块和全局注意力子模块,所述将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量,包括:
将所述句向量输入至所述多头自注意力子模块,得到第一句向量;
将所述句向量和所述文本重构向量输入至所述全局注意力子模块,得到第二句向量;
根据所述第一句向量和所述第二句向量,得到所述更新的句向量。
根据本申请公开的一种具体实施方式,所述全局注意力子模块包括依次连接的全局注意力层、规范化层和前馈全连接层;
所述将所述句向量和所述文本重构向量输入至全局注意力子模块,得到第二句向量,包括:
基于所述全局注意力层,将所述句向量映射为所述句向量对应的键表示和值表示,并将所述文本重构向量映射为所述句向量对应的查询表示;
根据所述句向量对应的查询表示、键表示及值表示,得到句子特征表示;
将所述句子特征表示输入至所述规范化层后得到的结果,再输入至所述前馈全连接层,得到所述第二句向量。
根据本申请公开的一种具体实施方式,训练所述摘要抽取模型的过程中,文本样本包括每个句子是否为摘要的标签,所述摘要抽取模型的损失函数包括所述预测得分和所述标签的第一损失函数以及所述全局语义信息提取模块的第二损失函数,基于预设公式得到所述摘要抽取模型的损失函数。
根据本申请公开的一种具体实施方式,所述预设公式包括:
Figure BDA0003682500350000041
Figure BDA0003682500350000042
式中,
Figure BDA0003682500350000043
表示所述预测得分和所述标签的第一损失函数,i表示句子编号,|S|表示文本样本中的句子总数,yi表示第i个句子的所述标签,yi∈{0,1},0表示句子不为摘要,1表示句子为摘要,y′i表示第i个句子的预测得分,
Figure BDA0003682500350000044
表示所述摘要抽取模型的损失函数,
Figure BDA0003682500350000045
表示全局语义信息提取模块的第二损失函数,β用于控制全局语义信息提取模块对所述摘要抽取模型的损失函数的影响。
第二方面,本申请实施例提供了一种摘要抽取装置,包括:
编码模块,用于将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量;
提取模块,用于利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量;
融入模块,用于将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量;
分类模块,用于将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。
第三方面,本申请实施例提供了一种计算机设备,包括处理器和存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
本申请的上述实施例提供的摘要抽取方法、装置、计算机设备及计算机可读存储介质。这样,通过对文本的全局语义信息进行提取,得到文本重构向量,再将文本重构向量与句向量融合,使模型更加关注重要的整体语义而非琐碎的局部信息,提高了生成的摘要的准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的一种摘要抽取方法的流程图;
图2示出了本申请实施例提供的一种摘要抽取模型的编码器模块的结构示意图;
图3示出了本申请实施例提供的一种摘要抽取模型的基于方面提取的全局语义信息提取模块的结构示意图;
图4示出了本申请实施例提供的一种摘要抽取模型的基于神经主题模型的全局语义信息提取模块的结构示意图;
图5示出了本申请实施例提供的一种摘要抽取模型的全局语义信息融入模块的结构示意图;
图6示出了本申请实施例提供的一种摘要抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
请参阅图1,图1为本申请实施例提供的摘要抽取模型的训练方法的流程图,如图1所示,该方法包括以下步骤:
步骤110、将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量。
具体的,对于输入的目标文本D=(w00,w01,...,wij,...),其中,wij表示目标文本中第i(0≤i≤|S|)个句子中的第j(0≤j≤|D|)个单词,|S|表示目标文本D中的句子总数,|D|表示目标文本D中的单词总数,抽取式摘要任务就是要得到每个句子是否属于摘要的标签yi∈{0,1},其中,0表示句子不为摘要,1表示句子为摘要。
在本申请实施例中,所述摘要抽取模型包括编码器模块、全局语义信息抽取模块、全局语义信息融入模块及分类模块。请一并参阅图2,图2示出了本申请提供的一种摘要抽取模型的编码器模块的结构示意图。
所述编码器模块包括基于预训练Roberta(Robustly optimized BERT approach)的编码器。基于预训练Roberta的编码器在大规模语料库中学习到了人类语言的通用知识,并且在Bert(Bidirectional Encoder Representations from Transformers)的基础上进行改进,使用优化的预训练设定,可以将输入的目标文本更好的编码,得到输入的目标文本的上下文表示。由于基于预训练Roberta的编码器对于输入文本长度的限制,需要对长度大于预设值的文本进行截断操作。为了尽可能编码更多的单词,减少尾部信息丢失问题,在本申请实施例中,只在句子与句子之间插入分隔符“</s>”作为句子分隔标志。
进一步地,先将目标文本D映射到预训练好的单词表上,然后输入到编码器模块的嵌入层,得到目标文本的词嵌入(Token Embeddings)和位置嵌入(Position Embeddings)。将词嵌入和位置嵌入相加,得到目标文本的连续表示x。因此,连续表示x通过下述公式表示:
x=(TE+PE)式中,TE表示目标文本的词嵌入,PE表示目标文本的位置嵌入。
在得到目标文本的连续表示x之后,利用预训练Roberta的编码器基于多头自注意力对输入的目标文本进行上下文学习。在本申请实施例中,选择12层的Roberta-base模型作为编码器。
经过编码器对目标文本D进行编码后,得到文本上下文的潜在表示
Figure BDA0003682500350000091
由于抽取式摘要针对句子级,所以需要得到目标文本中各个句子的表示,在本申请实施例中,将潜在表示输入至平均池化层,使用每个句子中所有单词特征的平均值作为句向量表示,最终得到句向量s=(s1,s2,...,s|S|)和文本向量
Figure BDA0003682500350000092
具体如下述公式:
Figure BDA0003682500350000093
Figure BDA0003682500350000094
步骤120、利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量。
具体的,使用全局语义信息提取模块对编码后的所述文本向量进行提取,得到文本重构向量,进而使得可以在后续的步骤中,对全局语义信息进行融合,使模型具备全局语义信息感知能力,指导句子打分。
下面将介绍本申请实施例提供的两种全局语义信息提取模块。
一种可选的实施方式中,所述步骤120包括:
将所述文本向量输入至第一隐藏层,并经过预设激活函数,得到所述目标文本在方面上的文本方面分布;
根据方面嵌入矩阵和所述文本方面分布,得到所述文本重构向量。
具体的,请一并参阅图3,图3示出了本申请实施例提供的一种基于方面提取(Aspect Extraction,AE)的全局语义信息提取模块的结构示意图。
首先,将通过编码器模块得到的文本向量d输入至第一隐藏层中,再经过预设激活函数,得到目标文本在方面上的文本方面分布p(a)。在本申请实施例中,采用softmax函数作为预设激活函数。因此,文本方面分布p(a)具体如下述公式:
p(a)=softmax(Hid(d))
可以理解的是,激活函数的类型可以根据实际需求设定,本申请实施例对此不作限定。
然后,根据方面嵌入矩阵和所述文本方面分布,得到所述文本重构向量。
r=ATp(a)
式中,r表示基于方面提取的全局语义信息提取模块得到的文本重构向量,A表示可学习的方面嵌入矩阵,p(a)表示文本方面分布。
在进行训练的过程中,使用两个目标函数来对模型进行优化。首先使用对比最大边缘(Contrastive Max-Margin)目标函数来优化文本重构向量r,将其表示为合页损失(Hinge Loss),使得文本重构向量r与输入的文本向量d的距离尽可能近,与负例的距离尽可能远。进一步地,为了减少方面嵌入之间的冗余度,在损失函数中加入了正则化项
Figure BDA0003682500350000111
以保证学习到的方面的多样性。基于方面提取的全局语义信息提取模块的损失函数为合页损失与正则化项之和,具体如下述公式:
Figure BDA0003682500350000112
Figure BDA0003682500350000113
Figure BDA0003682500350000114
式中,
Figure BDA0003682500350000115
表示合页损失,r表示基于方面提取的全局语义信息提取模块得到的文本重构向量,d表示文本向量,n(i)表示负例的特征表示,A表示可学习的方面嵌入矩阵,I表示单位矩阵,
Figure BDA0003682500350000116
表示正则化项,
Figure BDA0003682500350000117
表示基于方面提取的全局语义信息提取模块的损失函数,λ用于控制正则化的惩罚力度。
由于有监督抽取式摘要设定下,每个句子都有是否属于摘要的标签,所以,在本申请实施例中,直接采样非摘要句子作为负例,以使模型学习到区分非重要句子的能力。
本申请实施例将方面抽取应用于单文本抽取式任务中,将方面抽取作为全局语义信息提取模块,帮助模型建模全局语义信息。
另一种可选的实施方式中,所述步骤120包括:
将所述文本向量输入至第二隐藏层,得到所述目标文本的潜在特征;
根据所述潜在特征,得到所述文本的文本主题分布;
根据所述文本主题分布和主题嵌入矩阵,得到所述文本重构向量。
具体的,请一并参阅图4,图4示出了本申请实施例提供的一种基于神经主题模型(Neural Topic Model,NTM)的全局语义信息提取模块的结构示意图。
本申请实施例提供的基于神经主题模型的全局语义信息提取模块,基于VAE(Variational Auto-Encoder,变分自编码器)框架,在编码阶段使用文本向量d代替传统的词袋作为输入,经过第二隐藏层,得到目标文本的潜在特征z。为了使模型能够使用反向传播算法进行优化更新,采用重参数化技巧(reparameterization trick),不直接从后验分布N(μ,σ2)中采样潜在特征z,而是从标准高斯分布N(0,I)中采样ε,使z=μ+εσ2。在解码阶段由潜在特征z得到文本的文本主题分布θ,再根据定义的主题嵌入矩阵,得到所述文本重构向量,具体如下述公式:
μ=W1Hid(d)+b1
σ2=W2Hid(d)+b2
ε~N(0,I),z=μ+εσ2
θ=softmax(z)
Figure BDA0003682500350000121
式中,W1,W2,b1,b2是可学习参数,d表示文本向量,z表示目标文本的潜在特征,μ表示z分布的均值,σ表示z分布的方差,ε表示从标准高斯分布N(0,I)采样的分布,r表示基于神经主题模型的全局语义信息提取模块得到的文本重构向量,θ表示文本的文本主题分布,Wtopic表示主题嵌入矩阵。
在进行训练的过程中,采用对比学习(Contrastive Learning)损失函数来优化神经主题模型,使重构之后的文本重构向量r在嵌入空间中尽可能靠近正例,远离负例。因此,基于神经主题模型的全局语义信息提取模块的损失函数表示为:
Figure BDA0003682500350000131
Figure BDA0003682500350000132
式中,
Figure BDA0003682500350000133
表示重构损失,sim(·)表示余弦相似度,d表示文本向量,r表示基于神经主题模型的全局语义信息提取模块得到的文本重构向量,n(j)表示负例的特征表示,τ表示温度超参数,
Figure BDA0003682500350000134
表示基于神经主题模型的全局语义信息提取模块的损失函数,DKL表示KL散度(Kullback–Leibler Divergence)。在本申请实施例中,基于神经主题模型的全局语义信息提取模块的负例采样策略与基于方面提取的全局语义信息提取模块相同。
本申请实施例中,将神经主题模型作为全局语义信息提取模块,直接使用文本向量作为神经主题模型的输入,在训练的过程中应用对比学习损失函数进行优化,从而无需额外处理数据,使模型更加灵活。
步骤130、将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量。
具体的,在步骤120中对全局语义信息进行提取,得到所述文本重构向量后,将所述文本重构向量融入到所述句向量中,使得摘要抽取模型更加关注重要的整体语义而非琐碎的局部信息,进而具备全局语义信息感知能力,不仅解决了摘要抽取模型原本缺乏全局语义信息感知能力的局限性,同时也在一定程度上缓解了基于Bert模型的由于输入文本长度限制而带来的尾部信息丢失的问题。
一种可选的实施方式中,所述全局语义信息融入模块包括多头自注意力子模块和全局注意力子模块,所述将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量,包括:
步骤131、将所述句向量输入至所述多头自注意力子模块,得到第一句向量;
步骤132、将所述句向量和所述文本重构向量输入至所述全局注意力子模块,得到第二句向量;
步骤133、根据所述第一句向量和所述第二句向量,得到所述更新的句向量。
具体的,请一并参阅图5,图5示出了本申请实施例提供的一种摘要抽取模型的全局语义信息融入模块的结构示意图。所述全局语义信息融入模块500包括多头自注意力子模块510和全局注意力子模块520,所述多头自注意力子模块510包括标准transformer模块。将通过编码器模块得到的所述句向量作为输入,映射为所述句向量对应的查询表示、键表示和值表示,进而基于多头自注意力机制学习句子间关系和文本的层次关系,得到第一句向量。其中,所述第一句向量通过下述公式表示:
ssa=FF(Norm(Attention(Q,K,V)+s))
式中,ssa表示第一句向量,Q,K,V分别表示由所述句向量映射得到的所述句向量对应的查询表示、键表示和值表示,s表示句向量。
将通过编码器模块得到的所述句向量及通过全局语义信息提取模块得到的所述文本重构向量,输入至所述全局注意力子模块,得到第二句向量sg。由于使用所述文本重构向量包括的全局语义信息对句子重要性进行查询,然后融入到句向量中,使得模型具备全局语义信息感知的能力。因此,在本实施方式中,所述全局注意力子模块520包括依次连接的全局注意力层、规范化层和前馈全连接层;
所述步骤132,包括:
步骤132a、基于所述全局注意力层,将所述句向量映射为所述句向量对应的键表示和值表示,并将所述文本重构向量映射为所述句向量对应的查询表示;
步骤132b、根据所述句向量对应的查询表示、键表示及值表示,得到句子特征表示;
步骤132c、将所述句子特征表示输入至所述规范化层后得到的结果,再输入至所述前馈全连接层,得到所述第二句向量。
具体的,所述第二句向量通过下述公式表示:
sg=FF(Norm(Attention(Qr,K,V)))
式中,sg表示第二句向量,Qr表示将由所述文本重构向量映射得到的所述句向量对应的查询表示,K,V分别表示由所述句向量映射得到的所述句向量对应的键表示和值表示。
将第一句向量加上第二句向量,即得到更新的句向量snew,即:
snew=sg+ssa
步骤140、将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。
具体的,将所述更新的句向量输入至分类模块,得到每个句子的预测得分后,再根据每个句子的预测得分按照从大到小的顺序进行排序,选取预测得分位于前N个的句子作为摘要句子。在本申请实施例中,N的取值为3,可以理解的是,N的取值可以根据实际需求进行设定,本申请实施例对此不做限定。
此外,为了减少摘要句子语义的冗余性,且不增加额外的参数,在本申请实施例中,还使用三元组块(Trigram Blocking)技术来促进摘要的多样性。对于给定当前候选摘要集S和候选句子c,如果c和S中有相同的三元组,则不将c加入候选摘要集。
可以理解的是,在对所述摘要抽取模型进行训练的过程中,文本样本包括每个句子是否为摘要的标签,损失函数包括所述预测得分和所述标签的第一损失函数,以及所述全局语义信息提取模块的第二损失函数,基于预设公式得到总损失函数。
具体的,将文本样本输入到预训练的Roberta编码器中,使用梯度下降算法对所述摘要抽取模型进行联合训练。文本样本包括每个句子是否为摘要的标签,设所述标签y=(y0,y1,..,y|s|),yi∈{0,1},0表示句子不为摘要,1表示句子为摘要,y′i是由所述摘要抽取模型对文本样本中的句子进行预测后得到的预测得分,抽取式摘要通过最小化二分类交叉熵损失来对所述摘要抽取模型进行优化,如下式所示:
Figure BDA0003682500350000171
式中,
Figure BDA0003682500350000172
表示所述预测得分和所述标签的第一损失函数,i表示句子编号,|S|表示文本样本中的句子总数,yi表示第i个句子的所述标签,yi∈{0,1},0表示句子不为摘要,1表示句子为摘要,y′i表示第i个句子的预测得分。
进一步地,在本申请实施中,联合训练所述摘要抽取模型的损失函数,即预设公式,如下式所示:
Figure BDA0003682500350000173
式中,
Figure BDA0003682500350000174
表示所述摘要抽取模型的损失函数,
Figure BDA0003682500350000175
表示所述预测得分和所述标签的第一损失函数,
Figure BDA0003682500350000176
表示全局语义信息提取模块的第二损失函数,β用于控制全局语义信息提取模块对所述摘要抽取模型的损失函数的影响。当全局语义信息提取模块为基于方面提取的全局语义信息提取模块时,
Figure BDA0003682500350000177
即为
Figure BDA0003682500350000178
当全局语义信息提取模块为基于神经主题模型的全局语义信息提取模块时,
Figure BDA0003682500350000179
即为
Figure BDA00036825003500001710
本申请实施例中提供的摘要抽取方法,通过对文本的全局语义信息进行提取,得到文本重构向量,再将文本重构向量与句向量融合,使模型更加关注重要的整体语义而非琐碎的局部信息,这样,提高了生成的摘要的准确度。
与上述方法实施例相对应,请参见图6,图6为本申请实施例提供的摘要抽取装置的结构示意图,如图6所示,摘要抽取装置600包括:
编码模块610,用于将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量;
提取模块620,用于利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量;
融入模块630,用于将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量;
分类模块640,用于将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。
可选的,所述提取模块620包括:
第一隐藏子模块,用于将所述文本向量输入至第一隐藏层,并经过预设激活函数,得到所述目标文本在方面上的文本方面分布;
第一重构子模块,用于根据方面嵌入矩阵和所述文本方面分布,得到所述文本重构向量。
可选的,所述提取模块620包括:
第二隐藏子模块,用于将所述文本向量输入至第二隐藏层,得到所述目标文本的潜在特征;
主题分布子模块,用于根据所述潜在特征,得到所述文本的文本主题分布;
第二重构子模块,用于根据所述文本主题分布和主题嵌入矩阵,得到所述文本重构向量。
可选的,所述全局语义信息融入模块包括多头自注意力子模块和全局注意力子模块,所述融入模块630包括:
第一句向量得到子模块,用于将所述句向量输入至所述多头自注意力子模块,得到第一句向量;
第二句向量得到子模块,用于将所述句向量和所述文本重构向量输入至所述全局注意力子模块,得到第二句向量;
更新子模块,用于根据所述第一句向量和所述第二句向量,得到所述更新的句向量。
可选的,所述全局注意力子模块包括依次连接的全局注意力层、规范化层和前馈全连接层,第二句向量得到子模块包括:
映射单元,用于基于所述全局注意力层,将所述句向量映射为所述句向量对应的键表示和值表示,并将所述文本重构向量映射为所述句向量对应的查询表示;
句子特征表示得到单元,用于根据所述句向量对应的查询表示、键表示及值表示,得到句子特征表示;
所述第二句向量得到单元,用于将所述句子特征表示输入至所述规范化层后得到的结果,再输入至所述前馈全连接层,得到所述第二句向量。
可选的,训练所述摘要抽取模型的过程中,文本样本包括每个句子是否为摘要的标签,所述摘要抽取模型的损失函数包括所述预测得分和所述标签的第一损失函数以及所述全局语义信息提取模块的第二损失函数,基于预设公式得到所述摘要抽取模型的损失函数。
可选的,所述预设公式包括:
Figure BDA0003682500350000201
Figure BDA0003682500350000202
式中,
Figure BDA0003682500350000203
表示所述预测得分和所述标签的第一损失函数,i表示句子编号,|S|表示文本样本中的句子总数,yi表示第i个句子的所述标签,yi∈{0,1},0表示句子不为摘要,1表示句子为摘要,y′i表示第i个句子的预测得分,
Figure BDA0003682500350000204
表示所述摘要抽取模型的损失函数,
Figure BDA0003682500350000205
表示全局语义信息提取模块的第二损失函数,β用于控制全局语义信息提取模块对所述摘要抽取模型的损失函数的影响。
本申请实施例提供的摘要抽取装置能够实现图1的方法实施例中摘要抽取方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器上存储有程序或指令,该程序或指令被处理器执行时实现上述摘要抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述摘要抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的计算机设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种摘要抽取方法,其特征在于,包括:
将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量;
利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量;
将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量;
将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。
2.根据权利要求1所述的摘要抽取方法,其特征在于,所述利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量,包括:
将所述文本向量输入至第一隐藏层,并经过预设激活函数,得到所述目标文本在方面上的文本方面分布;
根据方面嵌入矩阵和所述文本方面分布,得到所述文本重构向量。
3.根据权利要求1所述的摘要抽取方法,其特征在于,所述利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量,包括:
将所述文本向量输入至第二隐藏层,得到所述目标文本的潜在特征;
根据所述潜在特征,得到所述文本的文本主题分布;
根据所述文本主题分布和主题嵌入矩阵,得到所述文本重构向量。
4.根据权利要求1所述的摘要抽取方法,其特征在于,所述全局语义信息融入模块包括多头自注意力子模块和全局注意力子模块,所述将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量,包括:
将所述句向量输入至所述多头自注意力子模块,得到第一句向量;
将所述句向量和所述文本重构向量输入至所述全局注意力子模块,得到第二句向量;
根据所述第一句向量和所述第二句向量,得到所述更新的句向量。
5.根据权利要求4所述的摘要抽取方法,其特征在于,所述全局注意力子模块包括依次连接的全局注意力层、规范化层和前馈全连接层;
所述将所述句向量和所述文本重构向量输入至全局注意力子模块,得到第二句向量,包括:
基于所述全局注意力层,将所述句向量映射为所述句向量对应的键表示和值表示,并将所述文本重构向量映射为所述句向量对应的查询表示;
根据所述句向量对应的查询表示、键表示及值表示,得到句子特征表示;
将所述句子特征表示输入至所述规范化层后得到的结果,再输入至所述前馈全连接层,得到所述第二句向量。
6.根据权利要求1所述的摘要抽取方法,其特征在于,训练所述摘要抽取模型的过程中,文本样本包括每个句子是否为摘要的标签,所述摘要抽取模型的损失函数包括所述预测得分和所述标签的第一损失函数以及所述全局语义信息提取模块的第二损失函数,基于预设公式得到所述摘要抽取模型的损失函数。
7.根据权利要求6所述的摘要抽取方法,其特征在于,所述预设公式包括:
Figure FDA0003682500340000031
Figure FDA0003682500340000032
式中,
Figure FDA0003682500340000033
表示所述预测得分和所述标签的第一损失函数,i表示句子编号,|S|表示文本样本中的句子总数,yi表示第i个句子的所述标签,yi∈{0,1},0表示句子不为摘要,1表示句子为摘要,y′i表示第i个句子的预测得分,
Figure FDA0003682500340000034
表示所述摘要抽取模型的损失函数,
Figure FDA0003682500340000035
表示全局语义信息提取模块的第二损失函数,β用于控制全局语义信息提取模块对所述摘要抽取模型的损失函数的影响。
8.一种摘要抽取装置,其特征在于,包括:
编码模块,用于将目标文本输入至摘要抽取模型的编码器模块,得到所述目标文本的文本向量和句向量;
提取模块,用于利用全局语义信息提取模块对所述文本向量进行全局语义信息提取,得到文本重构向量;
融入模块,用于将所述句向量和所述文本重构向量输入至全局语义信息融入模块,得到更新的句向量;
分类模块,用于将所述更新的句向量输入至分类模块,得到每个句子的预测得分,并生成所述目标文本的摘要。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7中任一项所述的摘要抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7中任一项所述的摘要抽取方法的步骤。
CN202210652713.0A 2022-06-07 2022-06-07 摘要抽取方法、装置、计算机设备及计算机可读存储介质 Active CN114969313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210652713.0A CN114969313B (zh) 2022-06-07 2022-06-07 摘要抽取方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210652713.0A CN114969313B (zh) 2022-06-07 2022-06-07 摘要抽取方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114969313A true CN114969313A (zh) 2022-08-30
CN114969313B CN114969313B (zh) 2023-05-09

Family

ID=82961938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210652713.0A Active CN114969313B (zh) 2022-06-07 2022-06-07 摘要抽取方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114969313B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN113761895A (zh) * 2021-02-04 2021-12-07 北京沃东天骏信息技术有限公司 文本摘要的生成方法、装置、电子设备及存储介质
CN113836295A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 一种文本摘要提取方法、系统、终端及存储介质
CN113901200A (zh) * 2021-09-28 2022-01-07 特赞(上海)信息科技有限公司 基于主题模型的文本摘要方法、装置及存储介质
CN113987169A (zh) * 2021-10-14 2022-01-28 润联软件系统(深圳)有限公司 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN114385806A (zh) * 2021-11-30 2022-04-22 航天信息股份有限公司 一种基于深度学习的文本摘要方法及系统
CN114428852A (zh) * 2022-01-12 2022-05-03 北京邮电大学 基于bert预训练模型的中文文本摘要抽取方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN113761895A (zh) * 2021-02-04 2021-12-07 北京沃东天骏信息技术有限公司 文本摘要的生成方法、装置、电子设备及存储介质
CN113836295A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 一种文本摘要提取方法、系统、终端及存储介质
CN113901200A (zh) * 2021-09-28 2022-01-07 特赞(上海)信息科技有限公司 基于主题模型的文本摘要方法、装置及存储介质
CN113987169A (zh) * 2021-10-14 2022-01-28 润联软件系统(深圳)有限公司 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN114385806A (zh) * 2021-11-30 2022-04-22 航天信息股份有限公司 一种基于深度学习的文本摘要方法及系统
CN114428852A (zh) * 2022-01-12 2022-05-03 北京邮电大学 基于bert预训练模型的中文文本摘要抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨士豪: "基于预训练语言模型的抽取式摘要方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
王亓才: "基于预训练模型及强化学习的自动文本摘要研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Also Published As

Publication number Publication date
CN114969313B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
CN114722834A (zh) 基于对比学习的语义识别模型训练方法、设备和介质
Adi et al. Analysis of sentence embedding models using prediction tasks in natural language processing
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN116547681A (zh) 用于持续演进内容的动态语言模型
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115186675A (zh) 语言模型训练及自然语言任务处理方法、装置及相关设备
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Albayari et al. Cyberbullying Detection Model for Arabic Text Using Deep Learning
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
Qi et al. Video captioning via a symmetric bidirectional decoder
CN114969313B (zh) 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN115017356A (zh) 图像文本对的判断方法和装置
Amrutha et al. Effortless and beneficial processing of natural languages using transformers
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
CN114692610A (zh) 关键词确定方法及装置
CN117933231B (zh) 文本纠错及纠错模型训练方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant