CN111241267A

CN111241267A - 摘要提取和摘要抽取模型训练方法及相关装置、存储介质

Info

Publication number: CN111241267A
Application number: CN202010025465.8A
Authority: CN
Inventors: 叶忠义; 吴飞; 方四安; 徐承
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-05
Anticipated expiration: 2040-01-10
Also published as: CN111241267B

Abstract

本申请公开了一种摘要提取和摘要抽取模型训练方法及相关装置、存储介质，其中，摘要提取方法包括：对文本进行分句得到句子列表，按照预设长度对句子列表按照顺序进行窗口划分得到多个窗口，且预设长度为摘要抽取模型支持的最大序列长度，每个窗口包括多个连续的句子且长度小于或等于预设长度，相邻的两个窗口包括至少一个相同的句子，利用摘要抽取模型分别对每个窗口进行预测，得到每个窗口中每个句子的重要性得分，利用每个窗口中每个句子的重要性得分确定文本中每个句子的重要性得分，选择按重要性得分从高到低排序靠前的至少一个句子作为文本的摘要。上述方案，能够提高摘要提取的质量。

Description

摘要提取和摘要抽取模型训练方法及相关装置、存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种摘要提取和摘要抽取模型训练方法及相关装置、存储介质。

背景技术

随着信息技术的发展，通过机器学习实现对自然语言的处理逐渐受到人们的青睐。以深度学习为例，可以将基于神经网络的模型应用于机器翻译、文本摘要等与自然语言处理相关的任务。

由于互联网技术的发展，人们每天都可能收到大量的新闻、文章等信息。故对这些信息进行摘要提取，能够提高人们获取信息的效率。然而，在实际应用中，特别是在对诸如工作报告、会议总结等长文本进行摘要提取时，极可能出现信息丢失或信息冗余等影响摘要提取质量的情况。有鉴于此，如何提高摘要提取的质量成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种摘要提取和摘要抽取模型训练方法及相关装置、存储介质，能够提高摘要提取的质量。

为了解决上述问题，本申请第一方面提供了一种摘要提取方法，包括：对文本进行分句得到句子列表，按照预设长度对句子列表按照顺序进行窗口划分得到多个窗口，且预设长度为摘要抽取模型支持的最大序列长度，每个窗口包括多个连续的句子且长度小于或等于预设长度，相邻的两个窗口包括至少一个相同的句子，利用摘要抽取模型分别对每个窗口进行预测，得到每个窗口中每个句子的重要性得分，利用每个窗口中每个句子的重要性得分确定文本中每个句子的重要性得分，选择按重要性得分从高到低排序靠前的至少一个句子作为文本的摘要。

为了解决上述问题，本申请第二方面提供了一种摘要抽取模型训练方法，包括：训练适用于摘要抽取的基于双向转换的编码器模型；利用适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型；利用文本摘要训练集训练摘要抽取模型。

为了解决上述问题，本申请第三方面提供了一种摘要提取方法，包括：利用摘要抽取模型对文本进行预测，得到文本中每个句子的重要性得分；获取按重要性得分从高到低排序靠前的多个句子的特征；按照摘要最大长度对多个句子中的至少部分进行组合，得到多个句子组合，每个句子组合的长度小于或等于摘要最大长度；利用训练好的评分回归器对每个句子组合进行预测得到预测质量分；选择预测质量分最高的一个句子组合作为文本的摘要。

为了解决上述问题，本申请第四方面提供了一种摘要提取装置，包括相互耦接的存储器和处理器，存储器存储有程序指令，处理器用于执行程序指令以实现上述第一方面或第三方面中的摘要提取方法。

为了解决上述问题，本申请第五方面提供了一种摘要抽取模型训练装置，包括相互耦接的存储器和处理器，存储器存储有程序指令，处理器用于执行程序指令以实现上述第二方面中的摘要抽取模型训练方法。

为了解决上述问题，本申请第六方面提供了一种计算机可读存储介质，存储有程序指令，其特征在于，程序指令被处理器执行时实现上述第一方面中的摘要提取方法，或实现上述第二方面中的摘要抽取模型训练方法，或实现上述第三方面中的摘要提取方法。

上述方案，通过对文本进行分句得到句子列表，从而按照预设长对句子列表按顺序性进行窗口划分得到多个窗口，且预设长度为摘要抽取模型支持的最大序列长度，每个窗口包括多个连续的句子且长度小于或等于预设长度，相邻的两个窗口包括至少一个相同的句子，进而利用摘要抽取模型分别对每个窗口进行预测，得到每个窗口中每个句子的重要性得分，以利用每个窗口中每个句子的重要性得分确定文本中每个句子的重要性得分，并选择按重要性得分从高到低排序靠前的至少一个句子作为文本的摘要，进而无论对于长文本，还是短文本，都能够基于文本中的句子在文本中的重要性得分，选择其中重要性得分从高到低排序靠前的至少一个句子作为文本的摘要，故对于长文本或短文本而言，都能够降低信息丢失或信息冗余的概率，进而能够提高摘要提取的质量。

附图说明

图1是本申请摘要提取方法一实施例的流程示意图；

图2是对文本进行窗口划分一实施例的示意图；

图3是摘要抽取模型一实施例的框架示意图；

图4是图1中步骤S13一实施例的流程示意图；

图5是本申请摘要提取方法另一实施例的流程示意图；

图6是本申请摘要抽取模型训练方法一实施例的流程示意图；

图7是本申请摘要提取装置一实施例的框架示意图；

图8是本申请摘要抽取模型的训练装置一实施例的框架示意图；

图9是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请摘要提取方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：对文本进行分句得到句子列表。

在一个实施场景中，可以按照句末标点对文本进行分句，从而得到句子列表。例如，对于文本“今天是XX月XX日。今天的天气晴。”，可以按照文本的句号“。”，将上述文本进行分句，得到“今天是XX月XX日”和“今天的天气晴”，从而得到的句子列表中包括句子“今天是XX月XX日”和句子“今天的天气晴”。其他文本可以以此类推，在此不再一一举例。在一个具体的实施场景中，为了不影响分句之后文本之间的上下文关系，句子列表中的句子可以按照各自在文本中的顺序进行排序。仍以上述文本“今天是XX月XX日。今天的天气晴。”为例，分句得到的句子列表中，句子“今天是XX月XX日”在句子列表中的位置可以与其在原始的文本中的位置一致，即排在句子列表中的第一位，而句子“今天的天气晴”在句子列表中的位置可以与其在原始的文本中的位置一致，即排在句子列表中的第二位。其他文本可以以此类推，在此不再一一举例。

步骤S12：按照预设长度对句子列表按顺序进行窗口划分得到多个窗口。

本实施例中，预设长度为摘要抽取模型支持的最大序列长度。在一个具体的实施场景中，摘要抽取模型可以是BERT(Bidirectional Encoder Representations fromTransformers)模型，BERT模型是基于Transformer的双向编码器的模型，其在处理一个词时，能够考虑该词前面和后面单词的信息，从而能够获取上下文的语义。预设长度可以根据所采用的摘要抽取模型而设置，例如，对于BERT模型而言，其支持的最大序列长度为512，故预设长度可以设置为512。当摘要抽取模型为其他模型，且其所支持的最大序列长度为其他值时，可以以此类推，在此不再一一举例。

本实施例中，每个窗口包括多个连续的句子且长度小于或等于预设长度。仍以BERT模型为例，每个窗口所包括的多个连续的句子的长度应小于或等于512，例如，512、500、489等等，在此不再一一举例。在一个具体的实施场景中，为了使摘要抽取模型在每个窗口中处理尽可能多地句子，从而减少摘要抽取模型被调用的次数，进而降低处理负荷，每个窗口所包括的多个连续的句子不仅应满足长度小于或等于预设长度，若向窗口中加入下一个句子，窗口的长度大于预设长度，其中，下一个句子为在窗口的结尾句子之后的相邻的句子。例如，多个连续的句子的长度为500，若下一个句子的长度为12，则该下一个句子应被划分至多个连续的句子所在的窗口，反之，若下一个句子的长度为13，则该下一个句子应被划分至与多个连续的句子所在的窗口不同的另一个窗口中，当多个连续的句子的长度为其他值，或者下一个句子的长度为其他值时，可以以此类推，在此不再一一举例。

本实施例中，相邻的两个窗口包括至少一个相同的句子。请结合参阅图2，图2是对文本进行窗口划分一实施例的示意图。如图2所示，文本经过分句后得到的句子列表中包含“句子1”、“句子2”、“句子3”、“句子4”、“句子5”、“句子6”、“句子7”和“句子8”。按照预设长度对句子列表按顺序进行窗口划分后，得到多个窗口，“句子1”、“句子2”、“句子3”被划分至同一窗口中，“句子2”、“句子3”、“句子4”被划分至同一窗口，“句子3”、“句子4”、“句子5”、“句子6”被划分至同一窗口，“句子6”、“句子7”和“句子8”被划分至同一窗口。在一个具体的实施场景中，还可以根据当前窗口中的句子数量，确定下一窗口中的起始句子。具体地，若当前窗口中的句子数量大于4，则下一窗口中的起始句子为当前窗口中的第4句，而若当前窗口中的句子数量小于或等于4，则下一窗口中的起始句子为当前窗口中的倒数第二个句子。

步骤S13：利用摘要抽取模型分别对每个窗口进行预测，得到每个窗口中每个句子的重要性得分。

在一个实施场景中，为了使每个窗口适应于摘要抽取模型的输入，还可以在利用摘要抽取模型分别对每个窗口进行预测时，先对每个窗口进行预处理，使其适应于摘要抽取模型的输入。

本实施例中，每个句子的重要性得分代表句子的重要程序，重要性得分越高，代表句子的重要程度越高。通过对每个窗口进行预测，能够得到每个窗口中每个句子的重要性得分。

步骤S14：利用每个窗口中每个句子的重要性得分确定文本中每个句子的重要性得分。

在一个实施场景中，为了确定文本中每个句子的重要性得分，可以判断文本中每个句子所在的窗口的数量，若文本中的句子只存在于一个窗口中，则将句子在窗口中的重要性得分作为在文本中的重要性得分，而若文本中的句子存在于至少两个窗口中，则将句子所在窗口中的重要性得分的平均值作为句子在文本中的重要性得分。在一个具体的实施场景中，可以进行平均池化，从而得到上述平均值，在此不做限定。

步骤S15：选择按重要性得分从高到低顺序靠前的至少一个句子作为文本的摘要。

本实施例中，在得到文本中的句子的重要性得分之后，可以按照重要性得分从高到低的顺序，选取靠前的至少一个句子作为文本的摘要。例如，选取靠前的一个句子，或两个句子，或三个句子作为文本摘要，在此不做限定。

在一个实施场景中，为了限制摘要长度，而又能够尽可能低地降低限制长度后的摘要的质量，还可以在选择得到的至少一个句子超过摘要最大长度时，对选择得到的至少一个句子进行自由组合，从而得到多个句子组合，且每个句子组合的长度小于或等于摘要最大长度，进而对每个句子组合进行质量预测，得到每个句子的预测质量分，以从中选取预测质量分最高的一个句子组合作为文本的摘要。限制摘要长度的具体过程在此暂不赘述。

请参阅图4，图4是图1中步骤S13一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S131：对窗口进行预处理。

本实施例中，对窗口进行预处理具体可以包括向窗口中的每个句子加入间隔标志和汇总标志，其中，间隔标志用于分割不同的句子，汇总标志用于汇总句子的语义信息。请结合参阅图3，图3是利用摘要抽取模型对窗口进行预测一实施例的框架示意图。如图3所示，可以向句子“sent one”和句子“sent again”加入间隔标志[SEP]和汇总标志[CLS]。具体地，可以在每个句子的起始位置加入汇总标志[CLS]，从而可以汇总每个句子的语义信息。

步骤S132：将预处理后的窗口输入摘要抽取模型，得到窗口的篇章语义信息和窗口中每个句子的句子语义信息。

本实施例中，摘要抽取模型可以为基于双向转换的编码器的摘要抽取模型，在一个实施场景中，在利用摘要抽取模型对预处理后的窗口进行处理之前，还可以采用预先准备的文本摘要训练集进行对原始的摘要抽取模型进行训练，从而得到摘要抽取模型，摘要抽取模型的训练过程在此暂不赘述。

本实施例中，摘要抽取模型可以包括嵌入层和转换层。具体地，请结合参阅图3，通过将预处理后的窗口输入嵌入层，可以得到窗口中所有的词语义特征、句子语义特征和句子位置特征，并将词语义特征、句子语义特征和句子位置特征送入转换层得到窗口的篇章语义信息和窗口中每个句子的句子语义信息，其中，窗口的篇章语义信息通过窗口中句子间的语义关系得到，而句子间的语义关系可以由句子语义特征和句子位置特征得到。

请继续结合参阅图3，如图3所示，将句子“sent one”和句子“sent again”进行预处理之后，可以得到预处理之后的窗口所包含的词：[CLS]、sent、one、[SEP]、[CLS]、sent、again、[SEP]，输入至嵌入层，可以分别得到与词嵌入相关的词语义特征：E_[CLS]、E_[sent]、E_[one]、E_[SEP]、E_[CLS]、E_[sent]、E_[again]、E_[SEP]，以及与片段嵌入相关的句子语义特征：E_A、E_A、E_A、E_A、E_B、E_B、E_B、E_B，以及与位置嵌入相关的句子位置特征：E₁、E₂、E₃、E₄、E₅、E₆、E₇、E₈，将上述句子语义特征和句子位置特征输入转换层，能够得到句子间的语义关系，进而得到窗口的篇章语义信息，在此过程中，通过收集词语义特征，可以得到句子语义信息。当窗口中的句子为其他句子时，可以以此类推，在此不再一一举例。

步骤S133：利用篇章语义信息对每个句子的句子语义信息进行修正得到每个句子的篇章级句子语义信息。

本实施例中，在得到窗口的篇章语义信息后，可以对每个句子的句子语义信息进行修正，从而得到每个句子的篇章级句子语义信息。

步骤S134：分别对篇章级句子语义信息进行概率化处理得到窗口中每个句子的重要性得分。

本实施例中，可以采用sigmoid函数对篇章级句子语义信息进行概率化处理，从而得到窗口中每个句子的重要性得分。具体地，概率化处理之后所得到的重要性得分可以是概率值，该概率值表示句子的重要性，概率值越高，表示重要性越高。sigmoid函数是机器学习中比较常用的函数，其在趋于正无穷或负无穷时，函数值趋近于平滑状态，sigmoid函数输出范围为0至1。

区别于前述实施例，通过对窗口进行预处理，并将预处理之后的窗口输入摘要抽取模型，得到窗口的篇章语义信息和窗口中每个句子的句子语义信息，利用篇章语义信息对每个句子的句子语义信息进行修正得到每个句子的篇章级语义信息，从而分别对篇章级句子语义信息进行概率化处理得到窗口中每个句子的重要性得分，而修正得到的篇章级句子语义信息相比修正前引入了篇章语义信息，能够提高摘要提取的准确性。

请参阅图5，图5是本申请摘要提取方法另一实施例的流程示意图。本实施例中，为了实现对提取得到的摘要长度进行限制，从而使得提取得到的摘要能够适用于特定业务场景需要，具体可以包括如下步骤：

步骤S51：利用摘要抽取模型对文本进行预测，得到文本中每个句子的重要性得分。

在一个实施场景中，摘要抽取模型可以是前述实施例中的基于双向转换的编码器的摘要抽取模型，具体结构可以参阅前述实施例，在此不再赘述。

利用摘要抽取模型对文本进行预测，得到文本中每个句子的重要性得分的具体步骤可以参阅前述实施例中的步骤，在此不再赘述。

步骤S52：获取按重要性得分从高到低排序靠前的多个句子的特征。

本实施例中，具体可以获取句子的重要性得分、句子长度、句子得分顺序中的多个特征中的至少一个。具体地，获取的句子的数量可以是1个、2个、3个等等，在此不做限定，例如，选取重要性得分从高到低排序靠前的2个句子，或者，选取重要性得分从高到低排序靠前的5个句子，或者，选取重要性得分从高到低排序靠前的8个句子，具体可以根据实际应用而设置，在此不再一一举例。

步骤S53：按照摘要最大长度对多个句子中的至少部分进行组合，得到多个句子组合，每个句子组合的长度小于或等于摘要最大长度。

本实施例中的摘要最大长度可以由用户预先设定，例如，200、250、300等等，在此不做限定。将上述多个句子中的至少部分进行组合，使得得到的多个句子组合的长度小于或等于摘要最大长度。仍以前述实施例中的“句子1”～“句子8”为例，在一个具体地实施场景中，上述句子按重要性得分排序为：“句子2”、“句子1”、“句子3”、“句子5”、“句子4”、“句子8”、“句子6”、“句子7”，则可以选取靠前的多个句子，例如，选取“句子2”、“句子1”、“句子3”、“句子5”，再对上述选取的句子进行组合，得到多个句子组合，且每个句子组合的长度小于或等于摘要最大长度，例如，可以得到的句子组合包括但不限于：[“句子2”、“句子1”]、[“句子2”、“句子1”、“句子3”]、[“句子3”、“句子5”]、[“句子1”、“句子5”]。

步骤S54：利用训练好的评分回归器对每个句子组合进行预测得到预测质量分。

在一个实施场景中，预测质量分可以是面向召回率不足的摘要评估分。具体地，质量分可以是ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分，ROUGE分基于摘要中n元词(n-gram)的共现信息来评价摘要，是一种面向n元词召回率的评价方法，通过将系统生成的摘要与人工生成的标准摘要进行对比，统计两者之间的重叠的基本单元(n元语法、词序列和词对)的数目，来评价摘要的质量。具体地，ROUGE准则是由一系列的评价方法组成，包括ROUGE-N(N是n-gram中的n，取值有1、2、3、4)、ROUGE-L、ROUGE-S、ROUGE-W、ROUGE-SU等。以ROUGE-N为例，ROUGE分的计算可以通过下式得到：

上式中，分母是标准摘要(或参考摘要)中n-gram的个数，分子是标准摘要(或参考摘要)和机器生产的摘要共现(重合)的n-gram的个数。举例而言，若标准摘要(参考摘要)为“今天的天气是晴”，而机器生成的摘要为“今天的天气晴朗”，则以ROUGE-1为例，由于两者重合的词单元数量为6，而标准摘要(参考摘要)中的词单元数量为7，故其ROUGE分为6/7，其他实施场景可以以此类推，在此不再一一举例。

在一个实施场景中，评分回归器可以包括Xgboost(eXtreme Gradient Boosting，极端梯度提升)的回归器。

在一个实施场景中，还可以利用摘要抽取模型对带参考摘要的文本进行预测得到文本的预测摘要，利用参考摘要计算文本的预测摘要的预测质量分，并利用预测摘要中每个句子的特征及预测质量分训练评分回归器，从而通过损失计算，以及参数调整，并循环上述步骤利用预测摘要中每个句子的特征及预测质量分训练评分回归器的步骤，直至满足预设条件(例如，损失值小于一预设阈值，且损失值不再减小)，得到训练好的评分回归器。在一个具体的实施场景中，训练过程中利用参考摘要计算文本的预测摘要的预测质量分具体可以参考上述计算ROUGE分的相关步骤，在此不再赘述。

步骤S55：选择预测质量分最高的一个句子组合作为文本的摘要。

本实施例中，将上述得到的多个句子组合中预测质量分最高的一个句子组合作为文本的摘要。例如，对于上述句子组合：[“句子2”、“句子1”]、[“句子2”、“句子1”、“句子3”]、[“句子3”、“句子5”]、[“句子1”、“句子5”]而言，若句子组合[“句子2”、“句子1”、“句子3”]的预测质量分最高，则可以将其作为文本的摘要。其他情况可以以此类推，在此不做限定。

上述方案，通过利用摘要抽取模型对文本进行预测，得到文本中每个句子的重要性得分，从而获取重要性得分从高到低排序靠前的多个句子的特征，并按照摘要最大长度对多个句子中的至少部分进行组合，得到多个句子组合，且每个句子组合的长度小于或等于摘要最大长度，从而利用训练好的评分回归器对每个句子组合进行预测得到预测质量分，进而选择预测质量分最高的一个句子组合作为文本的摘要，能够在文本的摘要长度受限的情况下，提升摘要的质量。

请参阅图6，图6是本申请摘要抽取模型训练方法一实施例的流程示意图，具体地，可以包括如下步骤；

步骤61：训练适用于摘要抽取的基于双向转换的编码器模型。

在一个实施场景中，可以对适用于摘要抽取的基于双向转换的编码器模型进行训练设置，具体地，可以设置批处理大小(batch size)大于第一预设值(第一预设值可以是256)，具体地，批处理大小可以设置为3072；为了加强模型对篇章的语义理解，还可以设置损失函数包括预测两句是否在同一篇章的损失函数；为了使得模型能够适应长文本，还可以设置每次训练的序列长度大于第二预设值(第二预设值可以是128)，具体地，序列长度可以设置为512；为了更好地利用语料信息，提高模型泛化能力，还可以设置每次训练动态分配遮蔽词的处理方式(例如，每次训练动态遮蔽词15％比例不同的词)；还可以将遮蔽词的处理方式设置为包括丢弃遮蔽词；为了融入更多的先验知识，还可以采用短语和/或命名实体作为遮蔽词，具体地，命名实体是指在文本识别出的特殊对象，这些特殊对象的语义类别通常在识别前被预定义好，预定义类别如人、地址、组织等，在此不做限定。此外，在一个具体的实施场景中，损失函数还可以包括遮蔽词的交叉熵损失函数。

在一个实施场景中，为了使得模型能够更好地学习领域相关的语义表示，还可以利用文本摘要训练集对适用于摘要抽取的基于双向转换的编码器模型进行领域微调。在一个具体的实施场景中，为了防止过拟合，在领域微调过程中，可以采用更低的学习率，并控制训练时间。

步骤S62：利用适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型。

在一个实施场景中，具体可以构建输出层，并将输出层拼接至适用于摘要抽取的基于双向转换的编码器模型，从而构建得到摘要抽取模型。

步骤S63：利用文本摘要训练集训练摘要抽取模型。

本实施例中，文本摘要训练集可以是预先从杂志、报纸等纸媒，或博客、新闻网站等网络媒体，或者部门、组织等公开的工作报告等等采集得到的，在此不做限定。

上述方案，训练适用于摘要抽取的基于双向转换的编码器模型，从而利用适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型，进而利用文本摘要训练摘要抽取模型，能够训练得到用于摘要提取的抽取模型。

请参阅图7，图7是本申请摘要提取装置70一实施例的框架示意图。摘要提取装置70包括相互耦接的存储器71和处理器72，存储器71存储有程序指令，处理器72用于执行程序指令以实现上述任一摘要提取方法实施例中的步骤。

具体而言，处理器72用于控制其自身以及存储器71以实现上述任一摘要提取方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由多个集成电路芯片共同实现。

在一些实施例中，处理器72用于对文本进行分句得到句子列表；处理器72还用于按照预设长度对句子列表按顺序进行窗口划分得到多个窗口，预设长度为摘要抽取模型支持的最大序列长度，每个窗口包括多个连续的句子且长度小于或等于预设长度，相邻的两个窗口包括至少一个相同的句子；处理器72还用于利用摘要抽取模型分别对每个窗口进行预测，得到每个窗口中每个句子的重要性得分；处理器72还用于利用每个窗口中每个句子的重要性得分确定文本中每个句子的重要性得分；处理器72还用于选择按重要性得分从高到低排序靠前的至少一个句子作为文本的摘要。

在一些实施例中，处理器72还用于在句子只存在于一个窗口中时，将句子在窗口中的重要性得分作为句子的重要性得分；处理器72还用于在句子存在于至少两个窗口中时，将句子在所有窗口中的重要性得分的平均值作为句子的重要性得分。

区别于前述实施例，通过判断句子所存在的窗口是否为一个，若是一个，则句子在窗口中的重要性得分作为句子的重要性得分，否则句子在所有窗口中的重要性得分的平均值作为句子的重要性得分，从而能够在句子存在的窗口为一个或多个时，都能够得到句子的重要性得分，有利于提高摘要抽取的准确性。

在一些实施例中，窗口长度小于或等于预设长度，并且若向窗口加入下一句子，窗口的长度大于预设长度，下一句子为在窗口的结尾句子之后的相邻句子。

区别于前述实施例，将窗口长度设置为小于或等于预设长度，且若向窗口加入下一个句子，窗口长度大于预设长度，其中，下一个句子为窗口的结尾句子之后的相邻句子，能够尽可能地减少窗口的数量，从而降低摘要抽取模型被调用的频次，进而有利于降低处理负荷。

在一些实施例中，处理器72还用于对窗口进行预处理；处理器72还用于将预处理后的窗口输入摘要抽取模型，得到窗口的篇章语义信息和窗口中每个句子的句子语义信息；处理器72还用于利用篇章语义信息对每个句子的句子语义信息进行修正得到每个句子的篇章级句子语义信息；处理器72还用于分别对篇章级句子语义信息进行概率化处理得到窗口中每个句子的重要性得分。

在一些实施例中，摘要抽取模型为基于双向转换的编码器的摘要抽取模型，摘要抽取模型包括嵌入层和转换层，处理器72还用于将预处理后的窗口输入嵌入层，得到窗口中所有的词语义特征、句子语义特征和句子位置特征，处理器72还用于将词语义特征、句子语义特征和句子位置特征送入转换层得到窗口的篇章语义信息和窗口中每个句子的句子语义信息。

区别于前述实施例，通过将将预处理后的窗口输入嵌入层，得到窗口中所有的词语义特征、句子语义特征和句子位置特征，从而将词语义特征、句子语义特征和句子位置特征送入转换层得到窗口的篇章语义信息和窗口中每个句子的句子语义信息，有利于后续采用窗口的篇章语义信息对句子语义信息进行修正，从而有利于提高摘要抽取的准确性。

在一些实施例中，处理器72还用于训练适用于摘要抽取的基于双向转换的编码器模型；处理器72还用于利用适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型；处理器72还用于利用文本摘要训练集训练摘要抽取模型。

区别于前述实施例，训练适用于摘要抽取的基于双向转换的编码器模型，从而利用适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型，进而利用文本摘要训练摘要抽取模型，能够训练得到用于摘要提取的抽取模型。

在一些实施例中，批处理大小大于第一预设值；损失函数包括预测两句是否在同一篇章的损失函数；每次训练的序列长度大于第二预设值；每次训练动态分配遮蔽词的处理方式；遮蔽词的处理方式包括丢弃遮蔽词；采用短语和/或命名实体作为遮蔽词。

区别于前述实施例，将批处理大小设置为大于第一预设值，能够使得模型训练得更充分；将损失函数设置为包括预测两句是否在同一篇章的损失函数，能够加强模型对篇章的语义理解；将每次训练的序列长度设置为大于第二预设值，能够使得模型能够适应长文本；设置每次训练动态分配遮蔽词的处理方式，能够更好地利用语料信息，提高模型泛化能力；通过采用短语和/或命名实体作为遮蔽词，能够融入更多的先验知识。

在一些实施例中，处理器72还用于利用文本摘要训练集对摘要抽取的基于双向转换的编码器模型进行领域微调。

区别于前述实施例，利用文本摘要训练集对摘要抽取的基于双向转换的编码器模型进行领域微调，能够使得模型能够更好地学习领域相关的语义表示。

在一些实施例中，处理器72还用于获取按重要性得分从高到低排序靠前的多个句子的特征；处理器72还用于按照摘要最大长度对多个句子中的至少部分进行组合，得到多个句子组合，每个句子组合的长度小于或等于摘要最大长度；处理器72还用于利用训练好的评分回归器对每个句子组合进行预测得到预测质量分；处理器72还用于选择预测质量分最高的一个句子组合作为文本的摘要。

区别于前述实施例，通过利用摘要抽取模型对文本进行预测，得到文本中每个句子的重要性得分，从而获取重要性得分从高到低排序靠前的多个句子的特征，并按照摘要最大长度对多个句子中的至少部分进行组合，得到多个句子组合，且每个句子组合的长度小于或等于摘要最大长度，从而利用训练好的评分回归器对每个句子组合进行预测得到预测质量分，进而选择预测质量分最高的一个句子组合作为文本的摘要，能够在文本的摘要长度受限的情况下，提升摘要的质量。

在一些实施例中，处理器72还用于利用摘要抽取模型对带参考摘要的文本进行预测得到文本的预测摘要；处理器72还用于利用参考摘要计算文本的预测摘要的预测质量分；处理器72还用于利用预测摘要中每个句子的特征及预测质量分训练评分回归器。

区别于前述实施例，通过利用摘要抽取模型对带参考摘要的文本进行预测得到文本的预测摘要，并利用参考摘要计算文本的预测摘要的预测质量分，从而利用预测摘要中的每个句子的特征及预测质量分训练评分回归器，能够有利于后续准确地预测每个句子的预测质量分，进而能够提高摘要提取的质量。

请参阅图8，图8是本申请摘要抽取模型的训练装置80一实施例的框架示意图。摘要抽取模型训练装置80包括相互耦接的存储器81和处理器82，存储器81存储有程序指令，处理器82用于执行程序指令以实现上述任一摘要抽取模型训练方法实施例中的步骤。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一摘要提取方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由多个集成电路芯片共同实现。

本实施例中，处理器82用于训练适用于摘要抽取的基于双向转换的编码器模型；处理器82还用于利用适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型；处理器82还用于利用文本摘要训练集训练摘要抽取模型。

在一些实施例中，适用于摘要抽取的基于双向转换的编码器模型的训练设置包括以下至少一种：批处理大小大于第一预设值；损失函数包括预测两句是否在同一篇章的损失函数；每次训练的序列长度大于第二预设值；每次训练动态分配遮蔽词的处理方式；遮蔽词的处理方式包括丢弃遮蔽词；采用短语和/或命名实体作为遮蔽词。

在一些实施例中，处理器82还用于利用文本摘要训练集对适用于摘要抽取的基于双向转换的编码器模型进行领域微调。

区别于前述实施例，通过利用文本摘要训练集对适用于摘要抽取的基于双向转换的编码器模型进行领域微调，能够使得模型能够更好地学习领域相关的语义表示。

请参阅图9，图9是本申请计算机可读存储介质90一实施例的框架示意图。计算机可读存储介质90存储程序指令91，程序指令91被处理器执行时实现上述任一摘要提取方法实施例中的步骤，或实现上述任一摘要抽取模型训练方法实施例中的步骤。

上述方案，能够提高摘要提取的质量。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种摘要提取方法，其特征在于，包括：

对文本进行分句得到句子列表；

按照预设长度对所述句子列表按顺序进行窗口划分得到多个窗口，所述预设长度为摘要抽取模型支持的最大序列长度，每个所述窗口包括多个连续的句子且长度小于或等于所述预设长度，相邻的两个窗口包括至少一个相同的句子；

利用所述摘要抽取模型分别对每个所述窗口进行预测，得到每个所述窗口中每个所述句子的重要性得分；

利用所述每个所述窗口中每个句子的重要性得分确定所述文本中每个句子的重要性得分；

选择按所述重要性得分从高到低排序靠前的至少一个所述句子作为所述文本的摘要。

2.根据权利要求1所述的方法，其特征在于，

所述利用所述每个所述窗口中每个句子的重要性得分确定所述文本中每个句子的重要性得分包括：

若所述句子只存在于一个所述窗口中，则将所述句子在所述窗口中的重要性得分作为所述句子的重要性得分；

若所述句子存在于至少两个所述窗口中，则将所述句子在所有所述窗口中的重要性得分的平均值作为所述句子的重要性得分。

3.根据权利要求1所述的方法，其特征在于，

所述窗口长度小于或等于所述预设长度，并且若向所述窗口加入下一句子，所述窗口的长度大于所述预设长度，所述下一句子为在所述窗口的结尾句子之后的相邻句子。

4.根据权利要求1所述的方法，其特征在于，

所述利用所述摘要抽取模型分别对每个所述窗口进行预测包括：

对所述窗口进行预处理；

将预处理后的所述窗口输入所述摘要抽取模型，得到所述窗口的篇章语义信息和所述窗口中每个所述句子的句子语义信息；

利用所述篇章语义信息对每个所述句子的所述句子语义信息进行修正得到每个所述句子的篇章级句子语义信息；

分别对所述篇章级句子语义信息进行概率化处理得到所述窗口中每个所述句子的重要性得分。

5.根据权利要求4所述的方法，其特征在于，

所述摘要抽取模型为基于双向转换的编码器的摘要抽取模型，所述摘要抽取模型包括嵌入层和转换层，所述将预处理后的所述窗口输入所述摘要抽取模型，得到所述窗口的篇章语义信息和所述窗口中每个所述句子的句子语义信息包括：

将预处理后的所述窗口输入所述嵌入层，得到所述窗口中所有的词语义特征、句子语义特征和句子位置特征；

将所述词语义特征、句子语义特征和句子位置特征送入所述转换层得到所述窗口的篇章语义信息和所述窗口中每个所述句子的句子语义信息。

6.根据权利要求1-5中任一项所述的方法，其特征在于，

所述利用所述摘要抽取模型分别对每个所述窗口进行预测之前进一步包括：

训练适用于摘要抽取的基于双向转换的编码器模型；

利用所述适用于摘要抽取的基于双向转换的编码器模型构建所述摘要抽取模型；

利用文本摘要训练集训练所述摘要抽取模型。

7.根据权利要求6所述的方法，其特征在于，

所述适用于摘要抽取的基于双向转换的编码器模型的训练设置包括以下至少一种：

批处理大小大于第一预设值；

损失函数包括预测两句是否在同一篇章的损失函数；

每次训练的序列长度大于第二预设值；

每次训练动态分配遮蔽词的处理方式；

所述遮蔽词的处理方式包括丢弃所述遮蔽词；

采用短语和/或命名实体作为遮蔽词。

8.根据权利要求6所述的方法，其特征在于，

所述利用所述适用于摘要抽取的基于双向转换的编码器模型构建所述摘要抽取模型之前进一步包括：

利用所述文本摘要训练集对所述适用于摘要抽取的基于双向转换的编码器模型进行领域微调。

9.根据权利要求1-5中任一项所述的方法，其特征在于，

所述选择所述重要性得分最高的至少一个所述句子作为所述文本的摘要包括：

获取按所述重要性得分从高到低排序靠前的多个所述句子的特征；

按照摘要最大长度对多个所述句子中的至少部分进行组合，得到多个句子组合，每个所述句子组合的长度小于或等于所述摘要最大长度；

利用训练好的评分回归器对每个所述句子组合进行预测得到预测质量分；

选择所述预测质量分最高的一个所述句子组合作为所述文本的摘要。

10.根据权利要求9所述的方法，其特征在于，

所述利用训练好的评分回归器对每个所述句子组合进行预测得到预测质量分之前进一步包括：

利用所述摘要抽取模型对带参考摘要的文本进行预测得到所述文本的预测摘要；

利用所述参考摘要计算所述文本的预测摘要的预测质量分；

利用所述预测摘要中每个所述句子的特征及所述预测质量分训练所述评分回归器。

11.一种摘要抽取模型训练方法，其特征在于，包括：

训练适用于摘要抽取的基于双向转换的编码器模型；

利用所述适用于摘要抽取的基于双向转换的编码器模型构建摘要抽取模型；

利用文本摘要训练集训练所述摘要抽取模型。

12.根据权利要求11所述的方法，其特征在于，

批处理大小大于第一预设值；

损失函数包括预测两句是否在同一篇章的损失函数；

每次训练的序列长度大于第二预设值；

每次训练动态分配遮蔽词的处理方式；

所述遮蔽词的处理方式包括丢弃所述遮蔽词；

采用短语和/或命名实体作为遮蔽词。

13.根据权利要求11所述的方法，其特征在于，

14.一种摘要提取方法，其特征在于，包括：

利用所述摘要抽取模型对文本进行预测，得到所述文本中每个句子的重要性得分；

15.根据权利要求14所述的方法，其特征在于，

利用所述参考摘要计算所述文本的预测摘要的预测质量分；

16.一种摘要提取装置，其特征在于，所述摘要提取装置包括相互耦接的存储器和处理器，所述存储器存储有程序指令，

所述处理器用于执行所述程序指令以实现如权利要求1-10、14-15中任一项所述的方法。

17.一种摘要抽取模型训练装置，其特征在于，所述摘要抽取模型训练装置包括相互耦接的存储器和处理器，所述存储器存储有程序指令，

所述处理器用于执行所述程序指令以实现如权利要求11-13中任一项所述的方法。

18.一种计算机可读存储介质，存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-15中任一项所述的方法。