CN113836295A

CN113836295A - 一种文本摘要提取方法、系统、终端及存储介质

Info

Publication number: CN113836295A
Application number: CN202111145161.6A
Authority: CN
Inventors: 李志韬; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-24

Abstract

本发明公开了一种文本摘要提取方法、系统、终端及存储介质。所述方法包括：通过训练好的Transformer模型提取待处理文本中每个句子的特征向量；根据每个句子的特征向量对待处理文本中进行主题划分，并利用K‑means算法抽取出各个主题的关键句；将所抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取，得到待处理文本的文本摘要。本发明实施例通过利用Transformer模型提取待处理文本中每个句子的特征向量，根据特征向量对待处理文本中进行主题划分，并利用K‑means算法抽取出各个主题的关键句，最后利用生成式文本摘要模型对关键句进行进一步优化，得到最终的具有语义连贯性的文本摘要，使得最后得到的文本摘要更具有代表力，并提高了文本摘要的语义连贯性和可读性。

Description

一种文本摘要提取方法、系统、终端及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种文本摘要提取方法、系统、终端及存储介质。

背景技术

随着互联网时代各类文章的指数增长，想要阅读所有的相关文章和对文章进行人工摘要变得越来越困难。自动文本摘要技术可以帮助用户提取出文章的关键信息，为阅读提供便利。

传统的文本摘要方法通常都是基于TF(Term Frequency，词频)、TF-IDF(termfrequency–inverse document frequency，一种用于信息检索与数据挖掘的常用加权技术)等进行的统计学方法表示，该方法对输入文本的特征表示过于简单，忽略了文本中存在的语义信息，会导致真正重要的句子得分过低而无法被识别出来，文本摘要的准确度较低。

发明内容

本发明提供了一种文本摘要提取方法、系统、终端及存储介质，旨在解决现有的文本摘要方法忽略了文本中存在的语义信息，导致文本摘要准确度较低等技术问题。

为解决上述技术问题，本发明采用的技术方案为：

一种文本摘要提取方法，包括：

通过训练好的Transformer模型提取待处理文本中每个句子的特征向量；

根据每个句子的特征向量对待处理文本中进行主题划分，并利用K-means算法抽取出各个主题的关键句；

将所抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取，得到待处理文本的文本摘要。

本发明实施例采取的技术方案还包括：所述通过训练好的Transformer模型提取待处理文本中每个句子的特征向量包括：

基于掩码语言模型任务随机遮挡每个句子中的词语，通过所述Transformer模型预测遮挡词语，并在预测过程中记住每一个词语的上下文语义信息，同时配合注意力机制学习每个词语在各个语义环境下的特征向量。

本发明实施例采取的技术方案还包括：所述根据每个句子的特征向量对待处理文本中进行主题划分包括：

利用Mean-shift算法对每个句子的特征向量进行聚类，根据聚类结果对待处理文本进行主题划分，并获取各个主题的句子簇。

本发明实施例采取的技术方案还包括：所述利用Mean-shift算法对每个句子的特征向量进行聚类包括：

将每个句子的特征向量在高纬空间中表示成一个高斯分布，其中，所在区域的句子越密集则表示高斯分布叠加下对应的概率密度值越高；

将局部最高概率密度范围内的句子划分为同一个主题，形成一个句子簇。

本发明实施例采取的技术方案还包括：所述句子簇形成过程包括：

使用Mean-shift算法对句子的特征向量进行聚类；

根据语义环境对Mean-shift算法的参数带宽进行监督学习，得到标准带宽；

利用梯度下降法找出在所述标准带宽范围内每个局部最高概率密度的位置，并根据概率的等高线将各个句子划分到不同的句子簇下；

其中，每个句子簇的边缘为属于两个局部概率密度最高点山谷的谷底。

本发明实施例采取的技术方案还包括：所述利用K-means算法抽取出各个主题的关键句包括：

利用K-means算法找出每个句子簇的中心点，并抽取出离所述中心点最近的句子作为对应主题下的关键句。

本发明实施例采取的技术方案还包括：所述将所抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取包括：

所述生成式文本摘要模型为基于LSTM的encoder-decoder模型；

所述基于LSTM的encoder-decoder模型包括encoder和decoder两个阶段，所述encoder阶段用于循环学习所述关键句中的每个词语，将每个词语的学习内容用于下个词语的学习，并将最后一个词语的encoder输出的激活函数值和细胞状态用于初始化decoder；

所述decoder阶段用于顺序地生成词语，并将生成的所有词语进行组合，作为所述待处理文本的文本摘要。

本发明实施例采取的另一技术方案为：一种文本摘要提取系统，包括：

特征提取模块：用于通过训练好的Transformer模型提取待处理文本中每个句子的特征向量；

主题划分模块：用于根据每个句子的特征向量对待处理文本中进行主题划分；

关键句提取模块：用于利用K-means算法抽取出各个主题的关键句；

摘要生成模块：用于将所抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取，得到待处理文本的文本摘要。

本发明实施例采取的又一技术方案为：一种终端，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现上述的文本摘要提取方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以执行所述文本摘要提取操作。

本发明实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行上述的文本摘要提取方法。

本发明的有益效果是：本发明实施例的文本摘要提取方法、系统、终端及存储介质通过利用Transformer模型提取待处理文本中每个句子的特征向量，根据特征向量对待处理文本中进行主题划分，并利用K-means算法抽取出各个主题的关键句，最后利用生成式文本摘要模型对关键句进行进一步优化，得到最终的具有语义连贯性的文本摘要，使得最后得到的文本摘要更具有代表力，并提高了文本摘要的语义连贯性和可读性。

附图说明

图1是本发明第一实施例的文本摘要提取方法的流程示意图；

图2是本发明第二实施例的文本摘要提取方法的流程示意图；

图3是本发明实施例文本摘要提取系统的结构示意图；

图4是本发明实施例的终端结构示意图；

图5是本发明实施例的存储介质结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，是本发明第一实施例的文本摘要提取方法的流程示意图。本发明第一实施例的文本摘要提取方法包括以下步骤：

S10：通过训练好的Transformer模型提取待处理文本中每个句子的特征向量；

S11：根据每个句子的特征向量对待处理文本中进行主题划分，并利用K-means算法抽取出各个主题的关键句；

S12：将抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取，得到具有语义连贯性的文本摘要。

基于上述，本发明第一实施例的文本摘要提取方法通过利用Transformer模型提取待处理文本中每个句子的特征向量，根据特征向量对待处理文本中进行主题划分，并利用K-means算法抽取出各个主题的关键句，最后利用生成式文本摘要模型对关键句进行进一步优化，得到最终的具有语义连贯性的文本摘要，使得最后得到的文本摘要更具有代表力，并提高了文本摘要的语义连贯性和可读性。

请参阅图2，是本申请第二实施例的文本摘要提取方法的流程示意图。本申请第二实施例的文本摘要提取方法包括以下步骤：

S20：将待处理文本输入预训练好的Transformer模型，通过Transformer模型学习待处理文本中每个句子的语义信息，得到每个句子的特征向量；

本步骤中，Transformer模型包括12层encoder(编码器)，每一层分别使用12个attention head(注意力机制)，基于MLM(Masked Language Model，掩码语言模型)任务使用相关的海量语料进行训练。具体的，在模型训练时，MLM任务会随机遮挡输入句子中的词语，让模型预测遮挡词语，预测过程中会使得transformer模型记住每一个词语的上下文语义信息，同时配合注意力机制学习每个词语在不同语义环境下的特征向量；即：输入为句子的N个词，输出为(【CLS】+N+【SEP】)*768的矩阵，其中【CLS】是句子中所有词的特征的加权表示，也是想得到的整个句子的特征表示。【SEP】为特殊标记，用于将特征表示将特征表示分开。在实际应用中，需要使用应用场景下的文本语料对预训练好的transformer模型进行微调，让模型学习当前文本语料的语义信息，更好的对句子进行特征表示。

基于上述，本申请实施例通过Transformer模型对输入文本进行特征表示，可以极大的提高文本特征表示的上下文语义信息，从而提高文本摘要的准确度。

S21：利用Mean-shift算法对每个句子的特征向量进行聚类，根据聚类结果对待处理文本进行主题划分，并获取各个主题的句子簇；

本步骤中，mean-shift算法通过将每个句子的特征向量在高纬空间中表示成一个高斯分布，所在区域的句子越密集则表示高斯分布叠加下对应的概率密度值越高，将局部最高概率密度范围内的句子自动划分为同一个主题，形成一个句子簇，从而实现了待处理文本的自动主题划分。

本申请实施例中，句子簇形成过程具体为：首先使用Mean-shift算法对句子的特征向量进行聚类；然后在有监督的情况下对Mean-shift算法的参数带宽进行调整，找到当前语义环境中最适合的带宽参数，作为标准带宽；最后利用梯度下降法找出在标准带宽范围内每个局部最高概率密度所在的位置，根据概率的等高线将各个句子划分到不同的句子簇下，每个句子簇的边缘为属于两个局部概率密度最高点山谷的谷底。其中，由于Mean-shift的带宽值由对当前语料监督学习得到，使得主题划分结果更符合当前语料要求。

S22：利用K-means算法找出每个句子簇的中心点，并抽取出离中心点最近的句子作为对应主题下的关键句，将所有主题的关键句集合作为待处理文本的抽取式文本摘要；

本步骤中，本实施例在利用Mean-shift算法对特征向量进行聚类的基础上，结合K-means算法抽取出每个句子簇中的关键句，可以自动确定文本中的主题数量从而提取相应数量的关键句，解决了利用K-means聚类算法抽取时需要自己制定主题数量的问题。

S23：将抽取式文本摘要输入预训练好的生成式文本摘要模型进行摘要优化，得到最终的具有语义连贯性的文本摘要；

本步骤中，由于抽取式文本摘要存在摘要句子之间语义不连贯、可读性差等不足，本申请实施例通过使用生成式文本摘要模型对抽取式文本摘要进行进一步的摘要抽取，使得最后得到的文本摘要更具有代表力，能够在准确表达文章主旨的同时确保句子通顺易读。

具体的，生成式文本摘要模型为基于LSTM(Long Short-Term Memory，长短期记忆网络)的encoder-decoder(编码-解码)模型。基于LSTM的encoder-decoder模型为针对文本摘要任务有监督的学习下训练得到，基于LSTM的encoder-decoder模型包括encoder和decoder两个阶段，在encoder阶段，循环学习关键句中的每个词语，将每一个词语所学到的内容用于下个词语的学习，将最后一个词语的encoder输出的激活函数值和细胞状态用于初始化decoder；然后在decoder阶段顺序地生成词语，并将生成的所有词语进行组合，作为待处理文本的文本摘要进行输出。在模型训练过程中，根据正确文本摘要不断的修正模型的权重，输入为句子，模型会根据预训练学习到的权重对输入句子中的每一个词语进行映射，输出为具有语义连贯性的文本摘要。训练完成后的基于LSTM的encoder-decoder模型能够记忆句子中不同词语的长距离依赖并且拥有对文本的建模能力。

基于上述，本发明第二实施例的文本摘要提取方法通过使用Transformer模型学习待处理文本的的特征向量，利用Mean-shift算法结合K-means算法抽取出待处理文本中各个主题下的关键句，最后利用生成式文本摘要模型进行摘要优化，得到最终的具有语义连贯性的文本摘要。相对于现有技术，本申请实施例至少具有以下有益效果：

一、使用Transformer模型对文本进行特征表示，可以极大的提升句子特征的上下文语义信息，大幅度提高了文本特征表示的精度，从而使得生成的摘要文本更具有代表力。

二、使用mean-shift算法对特征向量进行聚类，可以自动确定文本中的主题数量从而提取相应数量的关键句，无需手动指定主题个数。

三、通过将抽取式和生成式相结合，避免了单一抽取式文本摘要语义不连贯、可读性差等问题，使得最后得到的文本摘要能够在准确表达文章主旨的同时确保句子通顺易读，并能够在输入集较小的情况下加快模型的处理速度。

在一个可选的实施方式中，还可以：将所述的文本摘要提取方法的结果上传至区块链中。

具体地，基于所述的文本摘要提取方法的结果得到对应的摘要信息，具体来说，摘要信息由所述的文本摘要提取方法的结果进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息，以便查证所述的文本摘要提取方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图3，是本发明实施例文本摘要提取系统的结构示意图。本发明实施例文本摘要提取系统40包括：

特征提取模块41：用于通过训练好的Transformer模型提取待处理文本中每个句子的特征向量；其中，Transformer模型包括12层encoder(编码器)，每一层分别使用12个attentionhead，基于MLM(Masked Language Model，掩码语言模型)任务使用相关的海量语料进行训练。具体的，在模型训练时，MLM任务会随机遮挡输入句子中的词语，让模型预测遮挡词语，预测过程中会使得transformer模型记住每一个词语的上下文语义信息，同时配合注意力机制学习每个词语在不同语义环境下的特征向量；即：输入为句子的N个词，输出为(【CLS】+N+【SEP】)*768的矩阵，其中【CLS】是句子中所有词的特征的加权表示，也是想得到的整个句子的特征表示。在实际应用中，需要使用应用场景下的文本语料对预训练好的transformer模型进行微调，让模型学习当前文本语料的语义信息，更好的对句子进行特征表示。

主题划分模块42：用于根据每个句子的特征向量对待处理文本中进行主题划分；其中，主题划分模块利用Mean-shift算法对每个句子的特征向量进行聚类，得到不同主题的句子簇，实现待处理文本的主题划分。mean-shift算法通过将每个句子的特征向量在高纬空间中表示成一个高斯分布，所在区域的句子越密集则表示高斯分布叠加下对应的概率密度值越高，则局部最高概率密度的范围内的句子会被自动划分为同一个主题，形成一个句子簇，从而实现了待处理文本的自动主题划分。

本申请实施例中，主题划分过程具体为：首先使用Mean-shift算法对句子的特征向量进行聚类；然后在有监督的情况下对Mean-shift算法的参数带宽进行调整，找到当前语义环境中最适合的带宽参数，作为标准带宽；最后利用梯度下降法找出在标准带宽范围内每个局部最高概率密度所在的位置，根据概率的等高线将各个句子划分到不同的句子簇下，每个句子簇的边缘为属于两个局部概率密度最高点山谷的谷底。其中，由于Mean-shift的带宽值由对当前语料监督学习得到，使得主题划分结果更符合当前语料要求。

关键句提取模块43：用于利用K-means算法抽取出各个主题的关键句；具体为：利用K-means算法找出每个句子簇的中心点，并抽取出离中心点最近的句子作为对应主题下的关键句，将所有主题的关键句集合作为待处理文本的抽取式文本摘要；

摘要生成模块44：用于将抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取，得到待处理文本的文本摘要；其中，生成式文本摘要模型为基于LSTM(LongShort-Term Memory，长短期记忆网络)的encoder-decoder(编码-解码)模型。基于LSTM的encoder-decoder模型为针对文本摘要任务有监督的学习下训练得到，基于LSTM的encoder-decoder模型包括encoder和decoder两个阶段，在encoder阶段，循环学习关键句中的每个词语，将每一个词语所学到的内容用于下个词语的学习，将最后一个词语的encoder输出的激活函数值和细胞状态用于初始化decoder；然后在decoder阶段顺序地生成词语，并将生成的所有词语进行组合，作为待处理文本的文本摘要进行输出。在模型训练过程中，根据正确文本摘要不断的修正模型的权重，输入为句子，模型会根据预训练学习到的权重对输入句子中的每一个词语进行映射，输出为具有语义连贯性的文本摘要。训练完成后的基于LSTM的encoder-decoder模型能够记忆句子中不同词语的长距离依赖并且拥有对文本的建模能力。

基于上述，本发明实施例的文本摘要提取系统通过使用Transformer模型学习待处理文本的的特征向量，利用Mean-shift算法结合K-means算法抽取出待处理文本中各个主题下的关键句，最后利用生成式文本摘要模型进行摘要优化，得到最终的具有语义连贯性的文本摘要。相对于现有技术，本申请实施例至少具有以下有益效果：

请参阅图4，为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述文本摘要提取方法的程序指令。

处理器51用于执行存储器52存储的程序指令以执行文本摘要提取操作。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的终端通过处理器执行存储器中存储的程序指令并控制存储在存储器中的文本摘要提取方法对各声学特征在各情感标签上的表现程度进行量化，然后在情感标签发生变化时，根据该量化指标计算各个声学特征随情感标签转换而变化的灵敏度，并过滤掉灵敏度小于灵敏度阈值的声学特征，根据过滤后的声学特征进行文本摘要提取。本发明实施例兼顾了应用的灵活性，能够提升文本摘要提取的准确率，同时降低了在实际应用场景中的工作载荷。

请参阅图5，为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

本申请实施例的存储介质通过存储的处理器中的程序指令执行文本摘要提取方法对各声学特征在各情感标签上的表现程度进行量化，然后在情感标签发生变化时，根据该量化指标计算各个声学特征随情感标签转换而变化的灵敏度，并过滤掉灵敏度小于灵敏度阈值的声学特征，根据过滤后的声学特征进行文本摘要提取。本发明实施例兼顾了应用的灵活性，能够提升文本摘要提取的准确率，同时降低了在实际应用场景中的工作载荷。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本摘要提取方法，其特征在于，包括：

2.根据权利要求1所述的文本摘要提取方法，其特征在于，所述通过训练好的Transformer模型提取待处理文本中每个句子的特征向量包括：

3.根据权利要求2所述的文本摘要提取方法，其特征在于，所述根据每个句子的特征向量对待处理文本中进行主题划分包括：

4.根据权利要求3所述的文本摘要提取方法，其特征在于，所述利用Mean-shift算法对每个句子的特征向量进行聚类包括：

将每个句子的特征向量在高纬空间中表示成一个高斯分布；其中所在区域的句子越密集则表示高斯分布叠加下对应的概率密度值越高；

5.根据权利要求4所述的文本摘要提取方法，其特征在于，所述句子簇形成过程包括：

使用Mean-shift算法对句子的特征向量进行聚类；

6.根据权利要求3所述的文本摘要提取方法，其特征在于，所述利用K-means算法抽取出各个主题的关键句包括：

7.根据权利要求1至6任一项所述的文本摘要提取方法，其特征在于，所述将所抽取的关键句输入到训练好的生成式文本摘要模型中进行摘要提取包括：

所述生成式文本摘要模型为基于LSTM的encoder-decoder模型；

8.一种文本摘要提取系统，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1至7任一项所述的文本摘要提取方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以执行所述文本摘要提取方法。

10.一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1至7任一项所述的文本摘要提取方法。