CN110532563A

CN110532563A - 文本中关键段落的检测方法及装置

Info

Publication number: CN110532563A
Application number: CN201910821973.4A
Authority: CN
Inventors: 熊玉竹; 周以晴; 侯绍东
Original assignee: Suzhou Meinenghua Intelligent Technology Co Ltd
Current assignee: Suzhou Meinenghua Intelligent Technology Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-12-03
Anticipated expiration: 2039-09-02
Also published as: CN110532563B

Abstract

本申请揭示了一种文本中关键段落检测方法及装置，该方法包括将待检测文本进行切分复制处理得到段落集；将各个段落集均输入至标签预测模型中，得到各个段落的标签；去除段落集中无效的首端预定字数和尾端预定字数，将剩余的有效文本的标签拼接在一起，得到段落集所对应的原始的各段落的标签；筛选出标签为B和I的原始段落作为关键段落。本申请通过将待检测文本进行切分，得到较短的段落集，利用标签预测模型对每个段落集中的段落进行预测，得到各段落的标签，为了降低切分段落集所导致的起始边界处上文信息缺失和结尾边界处下文信息缺失，使用重叠操作进行边界处的切分优化，提高了段落预测的准确率，大大降低了段落标签预测的计算复杂度。

Description

文本中关键段落的检测方法及装置

技术领域

本发明属于计算机技术领域，涉及一种文本中关键段落检测方法及装置。

背景技术

随着互联网应用的不断发展，每天会产生海量的数据，在较多需求中，需要对这些数据中需要的关键信息进行抽取，并将抽取的关键信息进行结构化处理。

在对数据中的关键信息进行抽取时，常见的做法是先对文本进行关键识别，生成候选关键的集合，然后使用关系抽取技术搜索相近关键间可能存在的关系，把关键关联起来形成结构化的信息进行存储。

目前，在对文本信息中的关键进行抽取的研究大都基于短文本进行研究。当文本数据为长文本时，通过关键识别生成的候选关键集合过于庞大，在进行关系识别时，所产生的时间成本和计算开销也是庞大的。另外，当关键在文本中的间隔较远时，他们之间存在关系的可能性较低，且关系抽取出来的结果也不太准确，通常不值得进行预测。这些问题局限了文本信息抽取技术在长文本上的应用。因此，亟需一种可以在长文本中检测出关键段落的方法，以为后续基于关键段落进行关键信息抽取做好准备。

发明内容

为了解决相关技术基于长文本进行关键信息抽取时，因存在大量不包含实体信息的段落，或实体在长文本中的间隔较远，导致关系抽取不准确的问题，本申请提供了一种文本中关键段落检测方法及装置。所述技术方案如下：

第一方面，本申请提供了文本中关键段落检测方法，该方法包括：

将待检测文本进行切分复制处理，形成至少两个段落集，每个段落集包括预定数量的段落，相邻两个段落集中在前段落集的尾端预定字数的文本与在后段落集的首端预定字数的文本相同；

将各个段落集均输入至符合条件的标签预测模型中，得到所述待检测文本的各段落集所包含的各个段落的标签，所述标签包括B、I和O，所述B用于指示标签为B的段落包含关键信息且上一段落不包含关键信息，所述I用于指示标签为I的段落包含关键信息且上一段落也包含关键信息，所述O用于指示标签为O的段落不包含关键信息；

去除所述段落集中无效的首端预定字数和尾端预定字数，将剩余的有效文本的标签拼接在一起，得到所述段落集所对应的原始的各段落的标签；

筛选出标签为B和I的原始段落，将被筛选出的所述原始段落确认为所述待检测文本的关键段落。

可选的，在所述将各个段落集均输入至符合条件的标签预测模型中之前，本申请提供的文本中关键段落检测方法还包括：

获取文本样本中各个段落被人工标注的人工标签，所述人工标签包括B、I和O；

对所述文本样本进行切分复制处理，形成至少两个样本段落集，每个样本段落集包括预定数量的段落，相邻两个样本段落集中在前样本段落集的尾端预定字数的文本与在后样本段落集的首端预定字数的文本相同；

将所述样本段落集中第一预定比例的样本段落集作为训练样本，将所述样本段落集中剩余的第二预定比例的样本段落集作为测试样本；

利用所述训练样本及所述人工标签训练标签预测模型；

在对标签预测模型训练迭代的次数低于预定的最高迭代次数时，在每次训练迭代得到标签预测模型后，将所述测试样本输入至训练得到的所述标签预测模型，利用PRF评价指标对训练得到的所述标签预测模型进行模型得分计算；当所述模型得分比在前得到的最高模型得分高时，更新所述训练得到的标签预测模型，将最高模型得分替换为所述模型得分；当所述模型得分在第i次连续低于最高模型得分时，则结束对标签预测模型的训练迭代，将具备最高模型得分的标签预测模型确定为所述符合条件的标签预测模型；在对标签预测模型训练迭代的次数达到预定的最高迭代次数时，结束对标签预测模型的训练迭代。

可选的，在利用所述训练样本及所述人工标签训练标签预测模型时，可以包括如下步骤：

将所述训练样本输入至所述标签预测模型，得到预测标签；

通过交叉熵损失函数计算所述预测标签和所述训练样本对应的段落的人工标签的差异；

利用所述差异更新所述训练标签预测模型中的预定参数。

可选的，在将所述训练样本输入至所述标签预测模型，得到预测标签时，可以包括如下步骤：

将所述训练样本分别输入至所述标签预测模型中的预训练BERT模型，学习所述训练样本中文字所对应的字向量；

将每个训练样本的字向量均输入至字级别循环神经网络，得到第一类特征向量；

将每个训练样本的第一类特征向量均输入至字级别全连接神经网络，得到输出维度为预定维度的段落向量；

将每个训练样本的段落向量输入至段落级别循环神经网络，得到第二类特征向量；

将每个训练样本的第二类特征向量输入至段落级别全连接神经网络，得到每个训练样本中各段落的输出向量，所述段落的输出向量的维度为3；

将每个训练样本各段落的输出向量输入至SOFTMAX函数进行归一化计算，得到每个训练样本中各段落属于标签B、I和O的概率，将概率最大的标签作为所述段落的预测标签。

可选的，在所述将所述训练样本分别输入至所述标签预测模型中的预训练BERT模型之前，本申请提供的文本中关键段落检测方法还可以包括：

在训练样本中一段落的字数超过预定字数时，截取所述段落的段首预定量字数和段尾预定量字数，将截取出的字数进行组合，利用组合后的文本替换原始段落。

第二方面，本申请还提供了一种文本中关键段落检测装置，该装置包括：第一切分处理模块、预测模块、还原模块和筛选模块，其中：

第一切分处理模块，被配置为将待检测文本进行切分复制处理，形成至少两个段落集，每个段落集包括预定数量的段落，相邻两个段落集中在前段落集的尾端预定字数的文本与在后段落集的首端预定字数的文本相同；

预测模块，被配合为将所述第一切分处理模块切分复制得到的各个段落集均输入至符合条件的标签预测模型中，得到所述待检测文本的各段落集所包含的各个段落的标签，所述标签包括B、I和O，所述B用于指示标签为B的段落包含关键信息且上一段落不包含关键信息，所述I用于指示标签为I的段落包含关键信息且上一段落也包含关键信息，所述O用于指示标签为O的段落不包含关键信息；

还原模块，被配置为去除所述段落集中无效的首端预定字数和尾端预定字数，将剩余的有效文本的经所述预测模块预测的标签拼接在一起，得到所述段落集所对应的原始的各段落的标签；

筛选模块，被配置为从所述还原模块还原的各段落中筛选出标签为B和I的原始段落，将被筛选出的所述原始段落确认为所述待检测文本的关键段落。

可选的，本申请提供的文本中关键段落检测装置还包括：人工标签获取模块、第二切分处理模块、样本确定模块、训练模块和判定模块，其中：

人工标签获取模块，被配置为获取文本样本中各个段落被人工标注的人工标签，所述人工标签包括B、I和O；

第二切分处理模块，被配置为对所述文本样本进行切分复制处理，形成至少两个样本段落集，每个样本段落集包括预定数量的段落，相邻两个样本段落集中在前样本段落集的尾端预定字数的文本与在后样本段落集的首端预定字数的文本相同；

样本确定模块，被配置为将所述样本段落集中第一预定比例的样本段落集作为训练样本，将所述样本段落集中剩余的第二预定比例的样本段落集作为测试样本；

训练模块，被配置为利用所述训练样本及所述人工标签获取模块获取的人工标签训练标签预测模型；

判定模块，被配置为在对标签预测模型训练迭代的次数低于预定的最高迭代次数时，在每次训练迭代得到标签预测模型后，将所述测试样本输入至训练得到的所述标签预测模型，利用PRF评价指标对训练得到的所述标签预测模型进行模型得分计算；当所述模型得分比在前得到的最高模型得分高时，更新所述训练得到的标签预测模型，将最高模型得分替换为所述模型得分；当所述模型得分在第i次连续低于最高模型得分时，则结束对标签预测模型的训练迭代，将具备最高模型得分的标签预测模型确定为所述符合条件的标签预测模型；在对标签预测模型训练迭代的次数达到预定的最高迭代次数时，结束对标签预测模型的训练迭代。

可选的，上述训练模块可以包括：预测单元、计算单元和更新单元，其中：

预测单元，被配置为将所述训练样本输入至所述标签预测模型，得到预测标签；

计算单元，被配置为通过交叉熵损失函数计算所述预测单元预测得到的预测标签和所述训练样本对应的段落的人工标签的差异；

更新单元，被配置为利用所述计算单元计算得到的差异更新所述训练标签预测模型中的预定参数。

可选的，上述预测单元还可以被配置为：

通过上述技术特征，本申请提供的技术方案至少可以实现如下技术效果：

通过将待检测文本进行切分，得到较短的段落集，利用标签预测模型对每个段落集中的段落进行预测，得到各段落的标签，另外，为了降低切分段落集所导致的起始边界处上文信息缺失和结尾边界处的下文信息缺失，使用重叠操作进行边界处的切分优化，从而提高了段落预测的准确率，且大大降低了段落标签预测的计算复杂度。进一步的，由于筛选出的段落均为关键段落，因此可以有效降低后续文本信息抽取的难度，并提升其抽取效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请一部分实施例中提供的文本中关键段落检测方法中训练过程的流程示意图；

图2是本申请一部分实施例中提供的为文本中段落标注“BIO”的策略示意图；

图3是本申请一部分实施例中提供的将文本切分为段落集时的示例图；

图4A是本申请一部分实施例中提供的利用标签预测模型进行预测时的示意图；

图4B是本申请一部分实施例中提供的循环神经网络的结构示意图；

图4C是本申请一部分实施例中提供的全连接网络的结构示意图；

图5是本申请一部分实施例中提供的文本中关键段落检测方法中预测过程的流程示意图；

图6是本申请一部分实施例中提供的还原原始段落时的示意图；

图7是本申请一部分实施例中提供的文本中关键段落检测装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了便于对本申请的理解，下面将本申请中涉及到的一些术语进行解释说明。

PDF：英文全称Portable Document Format，便携式文档格式，是一种常见的电子文件格式。

OCR：英文全称Optical Character Recognition，光学字符识别，是一种将图像中的信息转化成文字的识别技术。

信息抽取：从文本中的非结构化信息自动提取成结构化数据的过程。

实体识别：从文本中识别指定类型实体的过程，常见的实体有地名和组织机构名等类型。

关系抽取：查找和分类实体之间的语义关系。

招股说明书：发行公司申请发行股票时，填写介绍发行公司情况的说明书。

“BIO”标注策略：一种常见的元素标注策略，“B”表示元素的开头，“I”表示元素的中间位置，“O”表示不属于任何类型。

BERT：Bidirectional Encoder Representation from Transformers，一种预训练语言表示的方法，可以使用纯文本语料进行训练，并编码学习文本中每个字对应的字向量。

字向量，段落向量：分别为字词和段落的一种分布式表示方法。

循环神经网络：一种特殊的神经网络结构，由输入层、隐藏层和输出层组成。

全连接神经网络：一种神经网络结构，每两层之间的节点都有边相连。

PRF评价指标：Precision Recall F，一种评价模型结果质量的常用指标。

SOFTMAX：一种归一化函数，在神经网路中常用于输出层。

在数据信息提取中，对于长文本的数据信息，通常包含较多的段落，而一些段落中包含数据提取所需要的关键信息，但一些段落中则不包含这些关键信息，或者相距较远的段落之间也存在关联的可能性较低，因此需要一种方式将具有关键信息的关键段落过滤出来，以便于后续针对过滤出的关键段落进行关键信息的抽取，从而降低关键信息抽取的计算复杂度。针对这种需求，本申请中提供了一种长文本中关键段落的检测方法，该方法包括训练部分和预测部分，其中训练部分可以结合图1至图4C进行解释说明，预测部分可以结合图5、图6 进行解释说明。

图1是本申请一部分实施例中提供的文本中关键段落检测方法中训练过程的流程示意图，训练部分的执行流程包括：

步骤101，获取文本样本中各个段落被人工标注的人工标签；

为了提高训练的准确度，在训练时，首先通过人工对文本样本进行标注，这里人工对文本样本中各段落标注的标签称为人工标签。

显然，人工标签是人为地根据段落中是否包含关键信息对段落进行标注后得到的，因此更为准确。这里的人工标签可以包括B、I和O。

请参见图2所示，其是本申请一部分实施例中提供的为文本中段落标注“BIO”的策略示意图，在图2中，标签为B的段落一般指该段落包括关键信息，但上一个段落不包含关键信息；标签为I的段落一般是指该段落包括关键信息，且上一个段落也包含关键信息；标签为O的段落一般是指该段落不包括关键信息。

在一些应用中，文本样本可以是从PDF文档中进行文字识别后得到的文本。可选的，可以通过OCR识别技术从PDF文档中识别为文本数据。

一般的文本样本中可以包括多个自然段落，每个自然段落可以包括至少一行文字。

步骤102，对文本样本进行切分复制处理，形成至少两个样本段落集，每个样本段落集包括预定数量的段落；

在本申请中主要为了解决从长文本中识别出关键段落的方法，因此本申请中的文本样本也可以选用长文本。例如，本申请在训练过程中，所使用的文本样本选用了金融领域“招股说明书”标注语料，平均一份文本所包含的段落数超过3000段。显然，本申请也适应于短文本中关键段落的识别检测，只是应用于长文本中关键段落的识别检测中，并结合后期对识别出的关键段落中的关键信息进行识别时，其运算复杂度远低于与目前已有的长文本中关键信息的识别的运算复杂度。

一般来讲，长文本包含的段落数和文字数过多，无法一次把整个长文本传入模型进行计算，所以需要进行裁剪，把一份文本切分成多份。举例来讲，将文本样本进行切分时，每预定个段落被切分形成一个段落集，也即，这里的切分后的每份段落集不超过预定个段落。这里所讲的预定个段落可以取值为200个段落、300个段落等，预定个段落的段落取值可以根据实际样本长度以及模型的运算复杂度进行设定，本申请中对此不进行过多限定。

同时，为了解决切分语料所导致的起始边界处上文信息缺失和结尾边界处的下文信息缺失，使用重叠操作进行边界处的切分优化。即被切分的两份连续语料集，它们的结尾边界和起始边界有部分是重复的。也就是说，相邻两个样本段落集中在前样本段落集的尾端预定字数的文本与在后样本段落集的首端预定字数的文本相同。对文本进行切分的样例可以如图3 所示。其中，文本段落集合即未切分前的文本，该文本段落集合包括m个段落，i为切分后段落集中的段落数量。

步骤103，将样本段落集中第一预定比例的样本段落集作为训练样本，将样本段落集中剩余的第二预定比例的样本段落集作为测试样本；

在对文本样本进行切分处理后得到各个样本段落集后，将其中一部分样本段落集作为训练样本，另一部分样本段落集作为测试样本，以测试经过训练样本训练得到的标签预测模型是否符合条件。

在一种可能的实现方式中，可以将样本段落集中第一预定比例的样本段落集作为训练样本，将样本段落集中剩余的第二预定比例的样本段落集作为测试样本。显然，这里的第一预定比如的样本可以从前往后按序选取，剩余的样本段落集则作为测试样本。

也就是说，每个训练样本或每个测试样本均为一个样本段落集，每个样本段落集均包括预定个段落。

这里的第一预定比例通常大于第二预定比例。比如，第一预定比例为80％，第二预定比例为20％；还比如，第一预定比例为85％，第二预定比例为15％。本申请中不对第一预定比例和第二预定比例的具体取值进行过多限定，根据对训练样本和测试样本的合理比例分配均应当属于本申请的保护范畴。

步骤104，利用训练样本及人工标签训练标签预测模型；

在一种可能的实现方式中，在利用训练样本及人工标签训练标签预测模型时，可以包括如下步骤：

S1、将训练样本输入至当前的标签预测模型，得到预测标签；

需要注意的是，在未利用训练样本训练之前，当前的标签预测模型为初始的未被训练的标签预测模型。

而在利用训练样本对标签预测模型进行第i次训练时，当前的标签预测模型为第i-1次被训练更新得到的标签预测模型，这里的i大于1。

在一种可能的实现方式中，结合图4A所示，其是本申请一部分实施例中提供的利用标签预测模型进行预测时的示意图，在将训练样本输入至初始的标签预测模型，得到预测标签时，可以包括如下步骤：

S11、将训练样本分别输入至标签预测模型中的预训练BERT模型，学习训练样本中文字所对应的字向量；

可选的，在将训练样本分别输入至标签预测模型中的预训练BERT模型之前，本申请提供的文本中关键段落检测方法还可以包括：

在训练样本中一段落的字数超过预定字数时，截取段落的段首预定量字数和段尾预定量字数，将截取出的字数进行组合，利用组合后的文本替换原始段落。

S12、将每个训练样本的字向量均输入至字级别循环神经网络，得到第一类特征向量；

为了便于区分，这里将字级别循环神经网络输出的向量记为第一类特征向量，该第一类特征向量为训练学习后的字向量。

这里的循环神经网络为m维输入m维输出的神经网络，请参见图4B所示。

本申请中为了将字级别的循环神经网络和段落级别的循环神经网络进行区分，这里的将字级别的循环神经网络称为字级别循环神经网络，将后面的段落级别的循环神经网络称为段落级别循环神经网络。

S13、将每个训练样本的第一类特征向量均输入至字级别全连接神经网络，得到输出维度为预定维度的段落向量；

这里的全连接神经网络为m维输入n维输出的神经网络，即输出的维度可以小于输入的维度，请参见图4C所示。

本申请中为了将字级别的全连接神经网络和段落级别的全连接神经网络进行区分，这里的将字级别的全连接神经网络称为字级别全连接神经网络，将后面的段落级别的全连接神经网络称为段落级别全连接神经网络。

需要注意的是，循环神经网络以及全连接神经网络的路径上通常会设置有权重，本申请中为了简化神经网络，并未在图4B和图4C中标记出神经网络涉及到的权重。

S14、将每个训练样本的段落向量输入至段落级别循环神经网络，得到第二类特征向量；

为了便于区分，这里将段落级别循环神经网络输出的向量记为第二类特征向量，该第二类特征向量为训练学习后的段落向量。

S15、将每个训练样本的第二类特征向量输入至段落级别全连接神经网络，得到每个训练样本中各段落的输出向量，段落的输出向量的维度为3；

这里段落的输出向量的三个维度分别对应标签B、I和O，比如，第一个维度对应标签B，第二维度对应标签I，第三个维度对应标签O。

S16、将每个训练样本各段落的输出向量输入至SOFTMAX函数进行归一化计算，得到每个训练样本中各段落属于标签B、I和O的概率，将概率最大的标签作为段落的预测标签。

分别获取每个段落的标签属于B、I和O的概率，将概率最大的标签记为该段落的预测标签。

S2、通过交叉熵损失函数计算预测标签和训练样本对应的段落的人工标签的差异；

为了得到较优的标签预测模型，需要将标准预测模型预测出的预测标签与对应的人工标签进行对比，利用对比得出的差异来修正标签预测模型中的参数。

本申请中通过交叉熵损失函数计算预测标签和训练样本对应的段落的人工标签的差异。

S3、利用差异更新训练标签预测模型中的预定参数。

这里更新的训练标签预测模型中的预定参数一般是指对上述的循环神经网络以及全连接神经网络上的全部或部分权重。

步骤105，将测试样本输入至训练得到的标签预测模型，利用PRF评价指标对训练得到的标签预测模型进行模型得分计算；

当多次训练过程中，测试样本的模型得分会在开始时不断提高，当其得分趋于稳定(即收敛)并不在提高时结束训练阶段，把得分最高时的模型保存下来，作为最优模型，也即符合条件的标签预测模型。

步骤106，在对标签预测模型训练迭代的次数低于预定的最高迭代次数时，在每次训练迭代得到标签预测模型后，将测试样本输入至训练得到的标签预测模型，利用PRF评价指标对训练得到的标签预测模型进行模型得分计算；

在对标签预测模型训练迭代过程中，通常会设置一个最高迭代次数，比如100次，避免无限迭代。当对标签预测模型训练迭代的次数达到该预定的最高迭代次数时，则停止对标签预测模型训练迭代。

而在对标签预测模型训练迭代的次数低于预定的最高迭代次数时，则仍旧可能需要迭代，此时则在每次训练迭代得到标签预测模型后，将测试样本输入至训练得到的标签预测模型，利用PRF评价指标对训练得到的标签预测模型进行模型得分计算。

步骤107，当模型得分比在前得到的最高模型得分高时，更新训练得到的标签预测模型，将最高模型得分替换为模型得分；

当本次训练模型得分比在前得到的最高模型得分高时，表明本次训练得到的标签预测模型更优于在前最高模型得分对应的标签预测模型，因此则更新训练得到的标签预测模型。并且将原有的最高模型得分替换为本次训练得到的模型得分。

步骤108，当模型得分在第i次连续低于最高模型得分时，则结束对标签预测模型的训练迭代，将具备最高模型得分的标签预测模型确定为符合条件的标签预测模型。

当模型得分在第i次连续低于最高模型得分时，即意味着连续i次训练后的标签预测模型的模型得分均未超过之前的最高模型得分，意味着连续i次对标签预测模型的训练均没有得到更好的标签预测模型，此时，则可以结束对标签预测模型的训练迭代，将具备最高模型得分的标签预测模型确定为符合条件的标签预测模型。

这里的i次可以根据实际情况设定，比如取值为5次、6次、8次等。从而实现了提早结束机制，避免在无法实现更好的训练结果的情况下，一直训练迭代，直至达到最高迭代次数，大量浪费了训练时间。

后续应用中则可以利用该符合条件的标签预测模型对待检测文件中的段落进行标签预测。

请参见图5所示，其是本申请一部分实施例中提供的文本中关键段落检测方法中预测过程的流程示意图，预测部分的执行流程包括：

步骤501，将待检测文本进行切分复制处理，形成至少两个段落集；

这里所讲的待检测文本可以是对PDF文档进行识别后的文本数据。

类似于步骤102，对较长的待检测文件，首先需要对待检测文件进行切分复制处理，以形成至少两个段落集。

经过切分复制处理后，每个段落集可以包括预定数量的段落，相邻两个段落集中在前段落集的尾端预定字数的文本与在后段落集的首端预定字数的文本相同。

显然，这里的预定数量的段落可以与训练过程中的预定个段落的段落数量相同。在同一数量级的情况下，这里的预定数量的段落也可以与训练过程中的预定个段落的段落数量不同。

步骤502，将各个段落集均输入至符合条件的标签预测模型中，得到待检测文本的各段落集所包含的各个段落的标签；

这里的符合条件的标签预测模型为训练后的符合条件的标签预测模型，如图4A所示，包括预训练BERT模型、字级别循环神经网络、字级别全连接神经网络、段落级别循环神经网络、段落级别全连接神经网络以及SOFTMAX函数，其中字级别循环神经网络、字级别全连接神经网络、段落级别循环神经网络、段落级别全连接神经网络中的权重被训练过程中修改过。

将各个段落集均输入至符合条件的标签预测模型中，经预训练BERT模型、字级别循环神经网络、字级别全连接神经网络、段落级别循环神经网络、段落级别全连接神经网络以及 SOFTMAX函数，得到待检测文本的各段落集所包含的各个段落的预测的标签。

步骤503，去除段落集中无效的首端预定字数和尾端预定字数，将剩余的有效文本的标签拼接在一起，得到段落集所对应的原始的各段落的标签；

待检测文本在预处理过程中被以预定数量(比如取值200)段落为限制进行切分，并做了容差处理，此时为了还原原始文本数据中的关键段落标注信息，需要对预处理后的多份文本段落标注进行合并操作。首先，去除段落集合的首尾无效部分，然后把中间的有效文本段落标注拼接在一起，还原原始文本数据对应的标注状态，其合并逻辑如图6所示。

步骤504，筛选出标签为B和I的原始段落，将被筛选出的原始段落确认为待检测文本的关键段落。

由于标签为B和I的段落中包含有关键信息，因此，将标签为B和I的原始段落筛选出作为待检测文本的关键段落。这样，后续在对关键信息进行抽取时，仅需要基于筛选出的关键段落进行关键信息抽取即可，大大降低了关键信息的抽取工作量。

综上所述，本申请提供的文本中关键段落检测方法，通过将待检测文本进行切分，得到较短的段落集，利用标签预测模型对每个段落集中的段落进行预测，得到各段落的标签，另外，为了降低切分段落集所导致的起始边界处上文信息缺失和结尾边界处的下文信息缺失，使用重叠操作进行边界处的切分优化，从而提高了段落预测的准确率，且大大降低了段落标签预测的计算复杂度。进一步的，由于筛选出的段落均为关键段落，因此可以有效降低后续文本信息抽取的难度，并提升其抽取效果。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图7是本申请一部分实施例中提供的文本中关键段落检测装置的结构示意图，该文本中关键段落检测装置可以通过软件、硬件或软硬件结合的方式实现上述文本中关键段落检测方法。本申请提供的文本中关键段落检测装置可以包括：第一切分处理模块710、预测模块720、还原模块730和筛选模块740。

第一切分处理模块710可以被配置为将待检测文本进行切分复制处理，形成至少两个段落集，每个段落集包括预定数量的段落，相邻两个段落集中在前段落集的尾端预定字数的文本与在后段落集的首端预定字数的文本相同。

预测模块720可以被配合为将第一切分处理模块710切分复制得到的各个段落集均输入至符合条件的标签预测模型中，得到待检测文本的各段落集所包含的各个段落的标签，标签包括B、I和O，B用于指示被标记的段落包含关键信息且上一段落不包含关键信息，I用于指示被标记的段落包含关键信息且上一段落也包含关键信息，O用于指示被标记的段落不包含关键信息。

还原模块730可以被配置为去除段落集中无效的首端预定字数和尾端预定字数，将剩余的有效文本的经预测模块720预测的标签拼接在一起，得到段落集所对应的原始的各段落的标签。

筛选模块740可以被配置为从还原模块730还原的各段落中筛选出标签为B和I的原始段落，将被筛选出的原始段落确认为待检测文本的关键段落。

在一种可能的实现方式中，本申请提供的文本中关键段落检测装置还可以包括：人工标签获取模块、第二切分处理模块、样本确定模块、训练模块和判定模块。

人工标签获取模块可以被配置为获取文本样本中各个段落被人工标注的人工标签，人工标签包括B、I和O。

第二切分处理模块可以被配置为对文本样本进行切分复制处理，形成至少两个样本段落集，每个样本段落集包括预定数量的段落，相邻两个样本段落集中在前样本段落集的尾端预定字数的文本与在后样本段落集的首端预定字数的文本相同。

样本确定模块可以被配置为将样本段落集中第一预定比例的样本段落集作为训练样本，将样本段落集中剩余的第二预定比例的样本段落集作为测试样本。

训练模块可以被配置为利用训练样本及人工标签获取模块获取的人工标签训练标签预测模型。

判定模块可以被配置为在对标签预测模型训练迭代的次数低于预定的最高迭代次数时，在每次训练迭代得到标签预测模型后，将测试样本输入至训练得到的标签预测模型，利用PRF 评价指标对训练得到的标签预测模型进行模型得分计算；当模型得分比在前得到的最高模型得分高时，更新训练得到的标签预测模型，将最高模型得分替换为模型得分；当模型得分在第i次连续低于最高模型得分时，则结束对标签预测模型的训练迭代，将具备最高模型得分的标签预测模型确定为符合条件的标签预测模型；在对标签预测模型训练迭代的次数达到预定的最高迭代次数时，结束对标签预测模型的训练迭代。

在一种可能的实现方式中，上述训练模块可以包括：预测单元、计算单元和更新单元。

预测单元可以被配置为将训练样本输入至标签预测模型，得到预测标签。

计算单元可以被配置为通过交叉熵损失函数计算预测单元预测得到的预测标签和训练样本对应的段落的人工标签的差异。

更新单元可以被配置为利用计算单元计算得到的差异更新训练标签预测模型中的预定参数。

在一种可能的实现方式中，上述预测单元还可以被配置为执行如下步骤：

将训练样本分别输入至标签预测模型中的预训练BERT模型，学习训练样本中文字所对应的字向量；

将每个训练样本的第二类特征向量输入至段落级别全连接神经网络，得到每个训练样本中各段落的输出向量，段落的输出向量的维度为3；

将每个训练样本各段落的输出向量输入至SOFTMAX函数进行归一化计算，得到每个训练样本中各段落属于标签B、I和O的概率，将概率最大的标签作为段落的预测标签。

在一种可能的实现方式中，上述预测单元还可以被配置为：

综上所述，本申请提供的文本中关键段落检测装置，通过将待检测文本进行切分，得到较短的段落集，利用标签预测模型对每个段落集中的段落进行预测，得到各段落的标签，另外，为了降低切分段落集所导致的起始边界处上文信息缺失和结尾边界处的下文信息缺失，使用重叠操作进行边界处的切分优化，从而提高了段落预测的准确率，且大大降低了段落标签预测的计算复杂度。进一步的，由于筛选出的段落均为关键段落，因此可以有效降低后续文本信息抽取的难度，并提升其抽取效果。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本中关键段落检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述将各个段落集均输入至符合条件的标签预测模型中之前，所述方法还包括：

利用所述训练样本及所述人工标签训练标签预测模型；

在对标签预测模型训练迭代的次数低于预定的最高迭代次数时，在每次训练迭代得到标签预测模型后，将所述测试样本输入至训练得到的所述标签预测模型，利用PRF评价指标对训练得到的所述标签预测模型进行模型得分计算；当所述模型得分比在前得到的最高模型得分高时，更新所述训练得到的标签预测模型，将最高模型得分替换为所述模型得分；当所述模型得分在第i次连续低于最高模型得分时，则结束对标签预测模型的训练迭代，将具备最高模型得分的标签预测模型确定为所述符合条件的标签预测模型；

在对标签预测模型训练迭代的次数达到预定的最高迭代次数时，结束对标签预测模型的训练迭代。

3.根据权利要求2所述的方法，其特征在于，所述利用所述训练样本及所述人工标签训练标签预测模型，包括：

将所述训练样本输入至所述标签预测模型，得到预测标签；

利用所述差异更新所述训练标签预测模型中的预定参数。

4.根据权利要求3所述的方法，其特征在于，所述将所述训练样本输入至所述标签预测模型，得到预测标签，包括：

5.根据权利要求4所述的方法，其特征在于，在所述将所述训练样本分别输入至所述标签预测模型中的预训练BERT模型之前，所述方法还包括：

6.一种文本中关键段落检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

9.根据权利要求8所述的装置，其特征在于，所述预测单元还被配置为：

10.根据权利要求9所述的装置，其特征在于，所述预测单元还被配置为：