CN115809329A - 一种长文本的摘要生成方法 - Google Patents

一种长文本的摘要生成方法 Download PDF

Info

Publication number
CN115809329A
CN115809329A CN202310044808.9A CN202310044808A CN115809329A CN 115809329 A CN115809329 A CN 115809329A CN 202310044808 A CN202310044808 A CN 202310044808A CN 115809329 A CN115809329 A CN 115809329A
Authority
CN
China
Prior art keywords
target text
vector
text
sentences
semantic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310044808.9A
Other languages
English (en)
Other versions
CN115809329B (zh
Inventor
马宁
谭可华
徐东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medical Intelligence Life Technology Tianjin Co ltd
Original Assignee
Medical Intelligence Life Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Medical Intelligence Life Technology Tianjin Co ltd filed Critical Medical Intelligence Life Technology Tianjin Co ltd
Priority to CN202310044808.9A priority Critical patent/CN115809329B/zh
Publication of CN115809329A publication Critical patent/CN115809329A/zh
Application granted granted Critical
Publication of CN115809329B publication Critical patent/CN115809329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种长文本的摘要生成方法,涉及自然语言处理技术领域,该方法包括:获取抽取式模型输出的目标文本对应的多个关键语句;将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。用以解决针对长文本,获取文本对应的文本摘要的准确性不高的问题。

Description

一种长文本的摘要生成方法
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种长文本的摘要生成方法。
背景技术
目前,文本数据以极快的速度在增长,面对海量的文本数据,为了获取文章的主要信息,用户需要对文章进行通篇阅读,再对核心内容进行概括,效率很低。随着机器学习技术的发展,可以基于机器学模型进行文本摘要的自动提取或生成。
但目前基于机器学模型可对较短的文本进行文本摘要的自动提取或生成,面对长文本,基于现有方法得到的文本摘要的准确性较差,即不能准确反应文本的主要信息。因此,如何提高获取的长文本的文本摘要的准确性是亟需解决的问题。
发明内容
为了解决基于现有方法对长文本进行处理得到的文本摘要的准确性较差的问题,本申请提供了一种长文本的摘要生成方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种长文本的摘要生成方法,包括:
获取抽取式模型输出的目标文本对应的多个关键语句;
将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;
将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;
将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
作为本申请实施例一种可选的实施方式,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;
所述将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本,包括:
将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;
将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量;
基于所述第二输出向量得到所述目标文本对应的摘要文本。
作为本申请实施例一种可选的实施方式,所述获取抽取式模型输出的目标文本对应的多个关键语句,包括:
将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:
对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;
基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;
对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
作为本申请实施例一种可选的实施方式,所述对所述目标文本进行语句划分,得到所述目标文本对应的多个语句,包括:
基于所述目标文本的标点符号,对所述目标文本进行划分;
对划分后的每个部分增加起始标识和结束标识,得到多个语句。
作为本申请实施例一种可选的实施方式,所述基于所述全局信息得到所述目标文本对应的多个关键语句,包括:
根据所述全局语义信息生成所述多个语句对应的第二语句向量;
将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;
获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
作为本申请实施例一种可选的实施方式,所述对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,包括:
通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;
基于所述依赖关系获取所述多个语句对应的全局语义信息。
作为本申请实施例一种可选的实施方式,所述膨胀门卷积层包括多种不同卷积核的卷积神经网络;
所述通过膨胀门卷积层对所述多个语句对应的语句向量进行处理,包括:
基于所述多种不同卷积核的卷积神经网络对所述多个语句对应的语句向量进行卷积处理、拼接处理、和降维处理。
第二方面,本申请提供一种长文本的摘要生成装置,包括:
抽取模块,用于获取抽取式模型输出的目标文本对应的多个关键语句;
编码模块,用于将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;
所述编码模块,还用于将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;
解码模块,用于将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
作为本申请实施例一种可选的实施方式,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;
所述解码模块,具体用于将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;
将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量;
基于所述第二输出向量得到所述目标文本对应的摘要文本。
作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:
对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;
基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;
对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于基于所述目标文本的标点符号,对所述目标文本进行划分;
对划分后的每个部分增加起始标识和结束标识,得到多个语句。
作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于根据所述全局语义信息生成所述多个语句对应的第二语句向量;
将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;
获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;
基于所述依赖关系获取所述多个语句对应的全局语义信息。
作为本申请实施例一种可选的实施方式,所述膨胀门卷积层包括多种不同卷积核的卷积神经网络;
所述抽取模块,具体用于基于所述多种不同卷积核的卷积神经网络对所述多个语句对应的语句向量进行卷积处理、拼接处理、和降维处理。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式所述的长文本的摘要生成方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式所述的长文本的摘要生成方法。
本申请实施例提供的技术方案与现有技术相比具有如下优点:
本申请实施例提供了一种长文本的摘要生成方法、装置、电子设备及存储介质,其中,该方法包括:获取抽取式模型输出的目标文本对应的多个关键语句;将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。在本申请实施例中,首先获取到目标文本对应的多个关键语句,将多个关键语句和目标文本均作为生成式模型的输入,既可以根据多个关键语句生成第一语义信息对应的第一编码向量,也可根据目标文本生成第二语义信息对应的第二编码向量,通过生成式模型对第一编码向量和第二编码向量处理得到目标文本对应的摘要文本,即是将多个关键句作为了生成式模型的指导句,指导生成式模型生成贴近目标文本中心思想的句子,可使得生成的目标文本对应的摘要文本更加准确。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例提供的长文本的摘要生成方法的步骤流程图;
图2为本申请一个实施例提供的长文本的摘要生成模型的结构示意图;
图3为本申请另一个实施例提供的长文本的摘要生成方法的步骤流程图;
图4为本申请一个实施例提供的生成式模型的结构示意图;
图5为本申请一个实施例提供的抽取式模型的结构示意图;
图6为本申请一个实施例提供的卷积神经网络的结构示意图;
图7为本申请一个实施例提供的长文本的摘要生成装置的结构框图;
图8为本申请一个实施例提供的电子设备的内部结构图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
首先,对本申请实施例的应用场景进行示例性描述,为了快速获得文本的核心信息,生成文本对应的文本摘要是一种极为重要的方式。目前,生成文本摘要的主要方法有抽取式和生成式,抽取式指选择文本中重要的句子,将选取的重要句子连接起来形成文本对对应的文本摘要,但生成的文本摘要的流畅性欠佳。生成式方法通过应用自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要,但由于文本中长距离依赖问题的存在,生成式方法难以对长文本进行处理生成较为准确的文本摘要。
基于此,本申请实施例提供一种长文本的摘要生成方法、装置、电子设备及存储介质,通过抽取式模型对目标文本进行处理输出多个关键句,将多个关键句和目标文本输入生成式模型,使多个关键句作为指导句指导生成式模型对目标文本进行处理,指导生成式模型生成贴近目标文本中心思想的句子,以解决由于目标文本中长距离依赖问题造成生成的文本摘要不准确的问题,提高了生成的目标文本对应的文本摘要的准确度,在本申请实施例中,长文本可以指字数超过500个字的文本。
本申请实施例提供的长文本的摘要生成方法可以通过长文本的摘要生成装置、或本申请实施例提供的电子设备来执行,该电子设备可以为终端设备,但不限于为手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-m obile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、智能手表、智能手环等终端设备,也可以为其它一些类型的电子设备。本申请对于电子设备的具体类型不做限定。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举可选实施例,并配合所附附图,作详细说明如下。
图1为本申请一个实施例提供的长文本的摘要生成方法流程图,参照图1所示,本实施例提供的长文本的摘要生成方法包括以下步骤:
S110、获取抽取式模型输出的目标文本对应的多个关键语句。
本申请实施例所提供的长文本的摘要生成方法可通过长文本的摘要生成模型来执行,所述长文本的摘要生成模型包括抽取式模型和生成式模型两部分,所述抽取式模型为基于BERT的抽取模型,将目标文本输入抽取式模型,抽取式模型通过BERT模型获取所述目标文本的局部信息,通过卷积神经网络模块获取所述目标文本的全局信息,基于所述目标文本的局部信息和全局信息获取目标文本对应的多个关键语句,所述多个关键语句可以反应目标文本的主要中心思想。
所述目标文本可以为长文本或超长文本,本实施例不对目标文本的字数不进行具体限定。
S120、将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量。
所述生成式模型了包括多个编码模块和解码模块,第一编码模块用于对所述多个关键语句进行编码,得到第一编码向量。第一编码模块中的BERT模型提取多个关键语句对应的局部特征,将基于局部特征生成的关键语句向量输入第一编码模块中的TransformerEnoder层,获取全局特征作为第一语义信息,并生成第一语义信息对应的第一编码向量。
S130、将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量。
其中,输入生成式模型的第二编码模块的目标文本可以为对目标文本对应的原始文本进行语句划分后得到的文本,根据目标文本对应的原始文本中的标点符号对原始文本进行划分,例如,根据句号和感叹号等进行语句划分,进行语句划分后,得到目标文本的多个语句,每个语句不超过512个字。
将多个语句构成的目标文本输入生成式模型的第二编码模块,第二编码模块中的BERT模型提取目标文本对应的局部语义信息,将基于局部语义信息生成的特征向量输入第二编码模块中的Transformer Enoder层,获取全局语义信息作为第二语义信息,并生成第二编码向量。
S140、将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
所述生成式模型的解码模块用于基于所述第一编码向量和所述第二编码向量进行解码,生成目标文本对应的摘要文本。
本实施例中,生成式模型包括两个编码模块,第一编码模块用于对输入生成式模型的多个关键语句进行编码,生成第一编码向量;第二编码模块用于对输入生成式模型的目标文本进行编码,生成第二编码向量,将第一编码向量和第二编码向量输入生成式模型的解码模块,解码模块在解码时以第一编码向量的解码结果作为摘要指导,基于摘要指导对第二编码向量进行解码,生成贴近目标文本中心思想的摘要文本。
示例性的,参照图2所示,图2为本申请实施例提供的长文本的摘要生成模型的结构示意图,包括抽取式模型21和生成式模型22,抽取式模型21包括BERT模型和卷积神经网络模型,生成式模型22包括第一编码模块、第二编码模块和解码模块。结合图2所示的长文本的摘要生成模型对目标文本进行处理生成目标文本对应的摘要文本的过程进行示例性说明:将目标文本同时输入抽取式模型中的BERT模型和生成式模型的第二编码模块,抽取式模型中的BERT模型获取目标文本中每个语句对应的语义信息,生成每个语句对应的特征向量,通过卷积神经网络模型对每个语句对应的特征向量进行处理,获取到可以反应目标文本的中心思想的多个关键语句,例如,S1、S2……Sk等k个关键语句,关键语句的数量因目标文本的不同而不同。将k个关键语句输入生成式模型的第一编码模块,得到第一编码向量,将第一编码向量和生成式模型的第二编码模块输出的第二编码向量输入生成式模型的解码模块,以第一编码向量作为解码模块对第二编码向量进行解码的指导向量,生成目标文本对应的文本摘要并输出。
可选的,在一些情形中,可直接将抽取式模型输出的S1、S2……Sk等k个关键语句进行联合,作为目标文本的文本摘要。
本申请实施例提供的长文本的摘要生成方法包括:获取抽取式模型输出的目标文本对应的多个关键语句;将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。在本申请实施例中,首先获取到目标文本对应的多个关键语句,将多个关键语句和目标文本均作为生成式模型的输入,既可以根据多个关键语句生成第一语义信息对应的第一编码向量,也可根据目标文本生成第二语义信息对应的第二编码向量,通过生成式模型对第一编码向量和第二编码向量处理得到目标文本对应的摘要文本,即是将多个关键句作为了生成式模型的指导句,以解决由于目标文本中长距离依赖问题造成生成的文本摘要不准确的问题,从而可指导生成式模型生成贴近目标文本中心思想的句子,使得生成的目标文本对应的摘要文本更加准确。
在本申请一个实施例中,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块,参照图3所示,图3为本申请另一个实施例提供的长文本的摘要生成方法的流程图,在图1所示实施例的基础上,步骤S140包括以下步骤S310至步骤S330,本实施例不再对与图1所示实施例中相同或相似的步骤进行详细说明,具体可参见图1所示实施例中相关步骤的说明,此处不再赘述。
S310、将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量。
其中,第一输出向量为第一注意力模块对多个关键句获取的全局语义信息进行注意力机制处理得到的向量,所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量,举例进行说明:
若生成式模型解码模块中的第二注意力模块输出的目标文本对应的文本摘要的第一个句子为“用于提高抵抗力的药品”,解码模块在输出第二个词“提高”时,参考向量为第一个词为“用于”对应的向量,解码模块在输出第三个词“抵抗力”时,参考向量为第一个词和第二个词“用于提高”对应的向量,即参考向量为第二注意力模块输出的所有词的向量。在对所述生成式模型进行训练时,参考向量为所述多个关键语句对应的特征向量。
需要说明的是,生成式模型的解码模块不仅仅包括第一注意力模块和第二注意力模块,本实施例中提供的生成式模型的解码模块包括注意力模块和其他模块,例如,其结构可以为在参考向量-自注意力机制-第一注意力模块-第二注意力模块-归一化和前馈神经网络-线性层-softmax。
示例性的,图4为本申请实施例中生成式模型的结构示意图,结合图4所示,以BERT和第一编码单元作为生成式模型的第一编码模块221,所述第一编码单元可以为Transformer Encoder,以BERT和第二编码单元作为生成式模型的第二编码模块222,所述第二编码单元可以为Transformer Encoder,其中,第一编码单元Transformer Encoder和第二编码单元Transformer Encoder的参数不共享,以此使得第一编码模块和第二编码模块在学习语义特征时不全部共享参数。以Transformer Decoder作为解码模块223,解码模块223包括第一注意力模块和第二注意力模块两个注意力模块。
S320、将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量。
即,第二输出向量为对基于多个关键句获取的全局语义信息和基于目标文本获取的全局语义信息进行注意力机制处理得到的向量。
S330、基于所述第二输出向量得到所述目标文本对应的摘要文本。
具体的,对第二注意力模块输出的第二输出向量进行解码,获取目标文本对应的摘要文本。通过注意力模块提取输入向量中的关键信息,使得生成的摘要文本的语句更加通顺。
在上述实施例中,所述获取抽取式模型输出的目标文本对应的多个关键语句,可包括:将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:
对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
示例性的,基于所述全局信息得到所述目标文本对应的多个关键语句可包括:根据所述全局语义信息生成所述多个语句对应的第二语句向量;将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
其中,对所述目标文本进行语句划分,得到所述目标文本对应的多个语句可通过以下方式实现:基于所述目标文本的标点符号,对所述目标文本进行划分;对划分后的每个部分增加起始标识和结束标识,得到多个语句。
示例性的,起始标识为[CLS],结束标识为[SEP],在每个句子的头部添加[CLS],在每个句子的尾部添加[SEP],以区分目标文本中的语句。例如,将目标文本根据标点符号进行划分后得到的文本为[CLS] S1 [SEP][CLS] S2 [SEP]……[CLS] SN [SEP],S1为第一个语句,S2为第二个语句,SN为第N个语句,即将目标文本进行划分后可得到N个语句。其中,每个语句包括的字的数量不超过512。
示例性的,图5为本申请实施例中抽取式模型的结构示意图,参照图5所示,抽取式模型包括BERT基础模型、多层多卷积核的膨胀卷积神经网络、以及全连接层。
其中,在对抽取式模型进行训练时,将目标文本对应的多个语句作为一批样本,即目标文本对应的多个语句的数量为一个batch_size。在训练过程中,由于能够代表文章主旨的语句的数量较少,可能只有几条,导致负样本与正样本严重不均衡,为解决此问题,引入如下Focal Loss损失函数:
Figure SMS_1
其中,y为样本标签,p表示样本标签为1的概率,a为控制样本类别不平衡的参数,r为控制难易样本的参数,a和r均为可调整的参数。该损失函数在模型训练时增加少样本的权重的同时提高预测错误样本的权重。
结合图5所示,将目标文本输入抽取式模型,对目标文本进行语句划分,得到划分后的多个语句构成的文本:[CLS] S1 [SEP][CLS] S2 [SEP]……[CLS] SN [SEP],将该文本输入BERT模型,BERT模型将每个语句前的[CLS]标记进入模型后的输出向量,作为该句子的句向量表征。多个语句分别对应的句向量表征可以表示多个语句各自的语义信息,即局部语义信息,但不能表示整个目标文本的语义信息。因此将各语句对应的句向量表征进行拼接,得到拼接后的表征向量[CLS]-1-vec [CLS]-2-vec……[CLS]-N-vec,将该拼接后的表征向量输入多层多卷积核的膨胀卷积网络,获取全局语义信息。
其中,对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息可包括:通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;基于所述依赖关系获取所述多个语句对应的全局语义信息。
示例性的,通过卷积神经网络以及门机制对所述多个语句对应的语句向量进行关键特征提取,获取语句向量之间的依赖关系,得到多个语句对应的第二语句向量;将所述多个语句对应的第二语句向量输入全连接层,得到每个第二语句向量的得分。
可选的,将所述多个语句对应的第二语句向量输入全连接层,利用sigmoid函数对得到每个语句向量进行打分,将得分大于预设阈值的第二语句向量对应的语句作为所述目标文本对应的多个关键语句;或者,根据第二语句向量的得分由高到低对所述语句进行排序,将前预设数量的语句作为目标文本对应的多个关键语句。
其中,膨胀门卷积层为一种带有门控机制的卷积神经网络,其结构参考图6所示,卷积神经网络中通过如下公式得到多个语句对应的关键语义特征向量:
Figure SMS_2
,其中,
Figure SMS_3
,X为多个语句对应的语句向量。
其中,Conv1D为多卷积核的卷积神经网络,对多个语句对应的语句向量进行卷积处理,之后进行拼接和降维,到多个语句对应的关键语义特征向量。
示例性的,可通过以下方式得到多个语句对应的关键语义特征向量:基于所述多种不同卷积核的卷积神经网络对所述多个语句对应的语句向量进行卷积处理、拼接处理、和降维处理,例如,采用三个不同大小的卷积核进行卷积计算,再进行拼接降维作为一层膨胀卷积,得到所述多个语句对应的语句向量之间的依赖关系,基于所述依赖关系,得到所述多个语句对应的关键语义特征向量。
在本申请实施例中,抽取式模型基于BERT预训练模型和卷积神经网络抽取目标文本对应的多个关键语句,其中,使用BERT作为编码器来获取目标文本包括的多个语句的分别对应的语义特征,生成对应的特征向量,基于带有门控机制的卷积神经网络,对特征向量进行关键词和关键短语的筛选,输出多个关键语句,将多个关键语句输入生成式模型作为生成目标文本的文本摘要的指导信息,解决了长文本中长距离依赖问题,使生成的文本摘要更贴近目标文本的中心思想。
基于同一发明构思,作为对上述方法的实现,本申请实施例还提供了执行上述实施例提供的长文本的摘要生成装置,该装置可以执行前述方法实施例对应所述的长文本的摘要生成方法,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的长文本的摘要生成装置能够对应实现前述方法实施例中的全部内容。
图7为本申请实施例提供的长文本的摘要生成装置的结构示意图,如图7所示,本实施例提供的长文本的摘要生成装置700包括:
抽取模块710,用于获取抽取式模型输出的目标文本对应的多个关键语句;
编码模块720,用于将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;
所述编码模块720,还用于将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;
解码模块730,用于将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
作为本申请实施例一种可选的实施方式,作为本申请实施例一种可选的实施方式,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;
所述解码模块730,具体用于将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量;基于所述第二输出向量得到所述目标文本对应的摘要文本。
作为本申请实施例一种可选的实施方式,所述抽取模块710,具体用于将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
作为本申请实施例一种可选的实施方式,所述抽取模块710,具体用于基于所述目标文本的标点符号,对所述目标文本进行划分;对划分后的每个部分增加起始标识和结束标识,得到多个语句。
作为本申请实施例一种可选的实施方式,所述抽取模块710,具体用于根据所述全局语义信息生成所述多个语句对应的第二语句向量;将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
作为本申请实施例一种可选的实施方式,所述抽取模块710用于通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;基于所述依赖关系获取所述多个语句对应的全局语义信息。
作为本申请实施例一种可选的实施方式,所述膨胀门卷积层包括多种不同卷积核的卷积神经网络;所述抽取模块710,具体用于基于所述多种不同卷积核的卷积神经网络对所述多个语句对应的语句向量进行卷积处理、拼接处理、和降维处理。
本实施例提供的长文本的摘要生成装置可以执行上述方法实施例提供的长文本的摘要生成方法,其实现原理与技术效果类似,此处不再赘述。上述长文本的摘要生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例所述的任意一项长文本的摘要生成方法的步骤。
示例性的,图8为本申请实施例提供的电子设备的结构示意图。如图8所示,本实施例提供的电子设备包括:存储器81和处理器82,存储器81用于存储计算机程序;处理器82用于调用计算机程序时执行上述方法实施例提供的长文本的摘要生成方法中的步骤,其实现原理和技术效果类似,此处不再赘述。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的任意一项长文本的摘要生成方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,比如静态随机存取存储器(Static Random Access Memory,SRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种长文本的摘要生成方法,其特征在于,包括:
获取抽取式模型输出的目标文本对应的多个关键语句;
将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;
将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;
将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
2.根据权利要求1所述的方法,其特征在于,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;
所述将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本,包括:
将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;
将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量;
基于所述第二输出向量得到所述目标文本对应的摘要文本。
3.根据权利要求1所述的方法,其特征在于,所述获取抽取式模型输出的目标文本对应的多个关键语句,包括:
将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:
对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;
基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;
对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标文本进行语句划分,得到所述目标文本对应的多个语句,包括:
基于所述目标文本的标点符号,对所述目标文本进行划分;
对划分后的每个部分增加起始标识和结束标识,得到多个语句。
5.根据权利要求3所述的方法,其特征在于,所述基于所述全局语义信息得到所述目标文本对应的多个关键语句,包括:
根据所述全局语义信息生成所述多个语句对应的第二语句向量;
将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;
获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
6.根据权利要求3所述的方法,其特征在于,所述对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,包括:
通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;
基于所述依赖关系获取所述多个语句对应的全局语义信息。
7.根据权利要求6所述的方法,其特征在于,所述膨胀门卷积层包括多种不同卷积核的卷积神经网络;
所述通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,包括:
基于所述多种不同卷积核的卷积神经网络对多个语句对应的第一语句向量进行卷积处理、拼接处理、和降维处理。
8.一种长文本的摘要生成装置,其特征在于,包括:
抽取模块,用于获取抽取式模型输出的目标文本对应的多个关键语句;
编码模块,用于将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;
所述编码模块,还用于将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;
解码模块,用于将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
9.一种电子设备,包括:存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的长文本的摘要生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的长文本的摘要生成方法。
CN202310044808.9A 2023-01-30 2023-01-30 一种长文本的摘要生成方法 Active CN115809329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044808.9A CN115809329B (zh) 2023-01-30 2023-01-30 一种长文本的摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044808.9A CN115809329B (zh) 2023-01-30 2023-01-30 一种长文本的摘要生成方法

Publications (2)

Publication Number Publication Date
CN115809329A true CN115809329A (zh) 2023-03-17
CN115809329B CN115809329B (zh) 2023-05-16

Family

ID=85487660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044808.9A Active CN115809329B (zh) 2023-01-30 2023-01-30 一种长文本的摘要生成方法

Country Status (1)

Country Link
CN (1) CN115809329B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN111858913A (zh) * 2020-07-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种自动生成文本摘要的方法和系统
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质
CN114064884A (zh) * 2021-08-16 2022-02-18 中央财经大学 文本摘要生成系统
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
WO2022141872A1 (zh) * 2020-12-30 2022-07-07 平安科技(深圳)有限公司 文献摘要生成方法、装置、计算机设备及存储介质
CN114817523A (zh) * 2022-04-11 2022-07-29 平安科技(深圳)有限公司 摘要生成方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN111858913A (zh) * 2020-07-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种自动生成文本摘要的方法和系统
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
WO2022141872A1 (zh) * 2020-12-30 2022-07-07 平安科技(深圳)有限公司 文献摘要生成方法、装置、计算机设备及存储介质
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质
CN114064884A (zh) * 2021-08-16 2022-02-18 中央财经大学 文本摘要生成系统
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN114817523A (zh) * 2022-04-11 2022-07-29 平安科技(深圳)有限公司 摘要生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115809329B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
US11379736B2 (en) Machine comprehension of unstructured text
US11544474B2 (en) Generation of text from structured data
US20220351487A1 (en) Image Description Method and Apparatus, Computing Device, and Storage Medium
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN110309516B (zh) 机器翻译模型的训练方法、装置与电子设备
US20190272319A1 (en) Method and Device for Identifying Specific Text Information
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111626062B (zh) 文本语义编码方法及系统
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
US20220028367A1 (en) Expressive text-to-speech utilizing contextual word-level style tokens
CN116881425A (zh) 一种通用型文档问答实现方法、系统、设备及存储介质
US9658999B2 (en) Language processing method and electronic device
US11972218B1 (en) Specific target-oriented social media tweet sentiment analysis method
Tran et al. Hierarchical transformer encoders for vietnamese spelling correction
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
CN115809329B (zh) 一种长文本的摘要生成方法
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN111626059B (zh) 一种信息处理方法及装置
CN113823259A (zh) 将文本数据转换为音素序列的方法及设备
CN111737422B (zh) 实体链接方法、装置、电子设备和存储介质
CN117035064B (zh) 一种检索增强语言模型的联合训练方法及存储介质
CN115600586B (zh) 摘要文本生成方法、计算设备及存储介质
US20220382999A1 (en) Methods and systems for speech-to-speech translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant