CN112527992A

CN112527992A - 长文本处理方法、相关设备及可读存储介质

Info

Publication number: CN112527992A
Application number: CN202011492809.2A
Authority: CN
Inventors: 代旭东; 叶忠义; 张浩宇; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19
Anticipated expiration: 2040-12-17
Also published as: CN112527992B

Abstract

本申请公开了一种长文本处理方法、相关设备及可读存储介质，对于长度大于预设长度的长文本，可以基于预置的文本处理模型的处理类型，将该长文本分割成多个文本片段，每个文本片段的长度不超过该文本处理模型所能处理最大文本的长度，然后针对文本片段，利用该文本处理模型进行处理，得到该文本片段对应的处理结果，最后基于各个文本片段对应的处理结果，即可得到与该长文本对应的处理结果。上述方案中，通过基于文本处理模型所能处理最大文本的长度，将长文本的处理转化为对多个短文本的处理，基于多个短文本的处理结果得到长文本的处理结果的方式，从而实现了基于文本处理模型对长文本的处理。

Description

长文本处理方法、相关设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种长文本处理方法、相关设备及可读存储介质。

背景技术

在很多场景(如，人机对话场景、机器阅读理解场景、文本分类场景等)中需要对文本进行处理。目前，多使用训练好的预训练模型，构造序列标注、文本分类、阅读理解等下游任务模型，以预训练模型参数为基础，在下游任务标注数据上进行微调，实现不同场景下的文本处理模型，以对文本进行处理。

但是，目前，预训练模型一般Transformer结构，其单次处理的文本长度不超过预设长度，比如，12层或24层的Transformer结构，其单次处理的文本长度不超过512字，因此，基于目前的文本处理模型结构无法对长文本(文本长度大于预设长度的文本)进行处理。

因此，如何基于目前的文本处理模型结构实现对长文本的处理，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提出了一种长文本处理方法、相关设备及可读存储介质。具体方案如下：

一种长文本处理方法，所述方法包括：

获取待处理的长文本；

基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段，每个文本片段的长度不超过所述文本处理模型所能处理最大文本的长度；

针对每个文本片段，利用所述文本处理模型进行处理，得到所述文本片段对应的处理结果；

基于各文本片段对应的处理结果，得到与所述长文本对应的处理结果。

可选地，每一处理类型对应的所述文本处理模型是以训练用文本片段为训练样本，以每个训练用文本片段标注的与所述处理类型对应的处理结果为样本标签，对预训练模型进行微调得到的。

可选地，每一处理类型对应的所述文本处理模型是采用如下方式进行训练的：

以第一训练用文本片段为训练样本，以第一训练用文本片段标注的与所述处理类型对应的处理结果为样本标签，对教师模型进行训练；

利用训练好的教师模型对所述第一训练用文本片段和第二训练用文本片段进行处理，得到所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果；

以所述第一训练用文本片段和所述第二训练用文本片段为训练样本，以所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果为样本标签，对学生模型进行训练；

将训练好的学生模型作为与所述处理类型对应的文本处理模型；

其中，所述学生模型的参数量小于所述教师模型的参数量。

可选地，所述基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段，包括：

获取预设的第一参量和第二参量，所述第一参量大于所述第二参量；所述第一参量用于确定将所述长文本分割后每个文本片段的长度，所述第二参量用于确定将所述长文本分割后相邻两个文本片段的间隔长度；

基于所述预置的文本处理模型的处理类型，所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置；

基于各个文本片段的起始位置和结束位置，将所述长文本分割成多个文本片段。

可选地，所述处理类型为从所述长文本中抽取预设问题的答案，或，对所述长文本进行分类；

则，所述基于所述处理类型，所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置，包括：

基于所述第一参量确定滑动窗口的大小，基于所述第二参量确定滑动窗口的步长，所述滑动窗口的大小小于等于所述第一参量，所述滑动窗口的步长小于等于所述第二参量；

通过将所述大小的滑动窗口以所述步长从所述长文本的首个字符滑动至所述长文本的最后一个字符，确定每个文本片段的起始位置和结束位置。

可选地，所述待处理的长文本为单个长文本，所述处理类型为从所述单个长文本中抽取预设问题的答案时，与所述文本片段对应的处理结果为：

所述文本片段中每个字符的类别标签预测结果，所述类别标签包括答案起始位置标签、答案中间位置标签、答案结尾位置标签、非答案位置标签和单个字答案位置标签。

可选地，所述基于各个文本片段对应的处理结果，得到与所述长文本对应的处理结果，包括：

针对所述单个长文本中的每个字符，确定所述字符对应的文本片段个数，以及所述字符在每个文本片段中的类别标签预测结果；

根据所述字符对应的文本片段个数，以及所述字符在每个文本片段中的类别标签预测结果，确定所述字符的类别标签预测最终结果；

基于所述单个长文本中各个字符的类别标签预测最终结果，从所述单个长文本中抽取预设问题的答案。

可选地，所述待处理的长文本为多个长文本，所述处理类型为从所述多个长文本中抽取预设问题的答案时，与所述文本片段对应的处理结果，包括：

答案位置预测结果，所述答案位置预测结果用于指示所述预设问题的答案在所述文本片段中的起始位置和结尾位置；

每个字符的类别标签预测结果，所述类别标签包括答案起始位置标签、答案中间位置标签、答案结尾位置标签、非答案位置标签和单个字答案位置标签；

长文本预测结果，所述长文本预测结果用于表示所述文本片段对应的长文本中是否包含所述预设问题的答案。

基于每个文本片段对应的所述答案位置预测结果、所述每个字符的类别标签预测结果和所述长文本预测结果，确定所述文本片段对应的答案预测结果；

基于各文本片段对应的答案预测结果，从所述多个长文本中抽取预设问题的答案。

可选地，所述处理类型为对所述长文本进行分类时，与所述文本片段对应的处理结果为：

所述文本片段的类别预测结果；

则，所述基于各个文本片段对应的处理结果，得到与所述长文本对应的处理结果，包括：

基于各文本片段的类别预测结果，确定所述长文本的分类。

可选地，所述处理类型为生成所述长文本的摘要；

获取所述长文本中每个句子的长度；

基于所述长文本中各个句子的长度、所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置；

其中，每个文本片段的起始位置和结束位置之间包括所述长文本中的至少一个句子，各句子的长度总和小于等于所述第一参量；相邻两个文本片段的起始位置之间包括所述长文本中的至少一个句子，各句子的长度总和小于等于所述第二参量。

可选地，所述处理类型为生成所述长文本的摘要时，与所述文本片段对应的处理结果为：

所述文本片段的摘要预测结果，所述文本片段的摘要预测结果用于指示所述文本片段中每个句子是否为所述长文本的摘要；

基于各文本片段的摘要预测结果，生成所述长文本的摘要。

一种长文本处理装置，所述装置包括：

获取单元，用于获取待处理的长文本；

分割单元，用于基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段，每个文本片段的长度不超过所述文本处理模型所能处理最大文本的长度；

文本片段处理单元，用于针对每个文本片段，利用所述文本处理模型进行处理，得到所述文本片段对应的处理结果；

长文本处理单元，用于基于各文本片段对应的处理结果，得到与所述长文本对应的处理结果。

其中，所述学生模型的参数量小于所述教师模型的参数量。

可选地，所述分割单元，包括：

参量获取单元，用于获取预设的第一参量和第二参量，所述第一参量大于所述第二参量；所述第一参量用于确定将所述长文本分割后每个文本片段的长度，所述第二参量用于确定将所述长文本分割后相邻两个文本片段的间隔长度；

位置确定单元，用于基于所述预置的文本处理模型的处理类型，所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置；

分割子单元，用于基于各个文本片段的起始位置和结束位置，将所述长文本分割成多个文本片段。

则，所述位置确定单元，包括：

滑动窗口及步长确定单元，用于基于所述第一参量确定滑动窗口的大小，基于所述第二参量确定滑动窗口的步长，所述滑动窗口的大小小于等于所述第一参量，所述滑动窗口的步长小于等于所述第二参量；

第一位置确定子单元，用于通过将所述大小的滑动窗口以所述步长从所述长文本的首个字符滑动至所述长文本的最后一个字符，确定每个文本片段的起始位置和结束位置。

可选地，所述长文本处理单元，包括：

字符参量确定单元，用于针对所述单个长文本中的每个字符，确定所述字符对应的文本片段个数，以及所述字符在每个文本片段中的类别标签预测结果；

字符类别标签预测最终结果确定单元，用于根据所述字符对应的文本片段个数，以及所述字符在每个文本片段中的类别标签预测结果，确定所述字符的类别标签预测最终结果；

第一抽取单元，用于基于所述单个长文本中各个字符的类别标签预测最终结果，从所述单个长文本中抽取预设问题的答案。

可选地，所述长文本处理单元，包括：

文本片段对应的答案预测结果确定单元，用于基于每个文本片段对应的所述答案位置预测结果、所述每个字符的类别标签预测结果和所述长文本预测结果，确定所述文本片段对应的答案预测结果；

第二抽取单元，用于基于各文本片段对应的答案预测结果，从所述多个长文本中抽取预设问题的答案。

所述文本片段的类别预测结果；

则，所述长文本处理单元，包括：

长文本分类确定单元，用于基于各文本片段的类别预测结果，确定所述长文本的分类。

可选地，所述处理类型为生成所述长文本的摘要；

则，所述位置确定单元，包括：

句子长度获取单元，用于获取所述长文本中每个句子的长度；

第二位置确定子单元，用于基于所述长文本中各个句子的长度、所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置；

则，所述长文本处理单元，包括：

长文本摘要生成单元，用于基于各文本片段的摘要预测结果，生成所述长文本的摘要。

一种长文本处理设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的长文本处理方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的长文本处理方法的各个步骤。

借由上述技术方案，本申请公开了一种长文本处理方法、相关设备及可读存储介质，对于长度大于预设长度的长文本，可以基于预置的文本处理模型的处理类型，将该长文本分割成多个文本片段，每个文本片段的长度不超过该文本处理模型所能处理最大文本的长度，然后针对文本片段，利用该文本处理模型进行处理，得到该文本片段对应的处理结果，最后基于各个文本片段对应的处理结果，即可得到与该长文本对应的处理结果。上述方案中，通过基于文本处理模型所能处理最大文本的长度，将长文本的处理转化为对多个短文本的处理，基于多个短文本的处理结果得到长文本的处理结果的方式，从而实现了基于文本处理模型对长文本的处理。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的长文本处理方法的流程示意图；

图2为本申请实施例公开的每一处理类型对应的文本处理模型的训练方法的流程示意图；

图3为本申请实施例公开的一种基于预置的文本处理模型的处理类型，将长文本分割成多个文本片段的方法的流程示意图；

图4为本申请实施例公开的一种文本片段的起始位置和结束位置示意图；

图5为本申请实施例公开的另一种文本片段的起始位置和结束位置示意图；

图6为本申请实施例公开的一种长文本处理装置结构示意图；

图7为本申请实施例提供的长文本处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过下述实施例对本申请提供的长文本处理方法进行介绍。

参照图1，图1为本申请实施例公开的长文本处理方法的流程示意图，该方法可以包括：

步骤S101：获取待处理的长文本。

在本申请中，待处理的长文本为长度大于预设长度的单个或多个文本。预设长度可以基于文本处理模型所能处理最大文本的长度确定，作为一种可实施方式，预设长度可以等于文本处理模型所能处理最大文本的长度。作为另一种可实施方式，预设长度也可以小于文本处理模型所能处理最大文本的长度。比如，采用12层或24层的Transformer结构的文本处理模型，其所能处理最大文本的长度为512字，则预设长度可以为512字或小于512字的任意长度。

需要说明的是，一般情况下，文本长度指的是文本中各种字符的和，比如，中文文本中的单字、标点等。一些情况下，文本长度还包括文本中各种标记位，比如，用来串接文本中两个句子的标记位，对此，本申请不进行任何限定。

步骤S102：基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段，每个文本片段的长度不超过所述文本处理模型所能处理最大文本的长度。

需要说明的是，处理类型可以包括从长文本中抽取预设问题的答案、对长文本进行分类、生成长文本的摘要等。其中，从长文本中抽取预设问题的答案包括从单个长文本中抽取预设问题的答案以及从多个长文本中抽取预设问题的答案。

针对不同的处理类型，对长文本进行分割的方式也不相同，具体将通过后续实施例详细说明。

步骤S103：针对每个文本片段，利用所述文本处理模型进行处理，得到所述文本片段对应的处理结果。

在本申请中，针对每个文本片段，可以将该文本片段输入所述文本处理模型，所述文本处理模型对该文本片段进行处理后输出该文本片段对应的处理结果。

需要说明的是，不同的处理类型对应的文本处理模型，对文本片段的处理方式不同，具体将通过后续实施例详细说明。

步骤S104：基于各文本片段对应的处理结果，得到与所述长文本对应的处理结果。

需要说明的是，不同的处理类型，基于各文本片段对应的处理结果，得到与所述长文本对应的处理结果的方式不同，具体将通过后续实施例详细说明。

本实施例公开了一种长文本处理方法，对于长度大于预设长度的长文本，可以基于预置的文本处理模型的处理类型，将该长文本分割成多个文本片段，每个文本片段的长度不超过该文本处理模型所能处理最大文本的长度，然后针对文本片段，利用该文本处理模型进行处理，得到该文本片段对应的处理结果，最后基于各个文本片段对应的处理结果，即可得到与该长文本对应的处理结果。上述方案中，通过基于文本处理模型所能处理最大文本的长度，将长文本的处理转化为对多个短文本的处理，基于多个短文本的处理结果得到长文本的处理结果的方式，从而实现了基于文本处理模型对长文本的处理。

在本申请中，每一处理类型对应的所述文本处理模型是以训练用文本片段为训练样本，以每个训练用文本片段标注的与所述处理类型对应的处理结果为样本标签，对预训练模型进行微调得到的。

其中，预训练模型可以为采用Transformer结构的模型，如BERT(BidirectionalEncoder Representations fromTransformers，来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个。

针对不同的处理类型，对训练文本片段标注的内容也不同，本申请中以预训练模型为BERT模型为例，对各种处理类型的训练用文本片段的标注方式进行如下说明。

第一，处理类型为从单个长文本中抽取预设问题的答案。

方式一，对每个训练用文本片段中答案的begin位置和end位置进行标注。

具体的，如果训练用文本片段内包含完整答案，则标注答案在该文本片段中的begin位置和end位置，如果训练用文本片段不包含答案，则标注答案在该文本片段的位置均为[CLS]位置，如果训练用文本片段包含答案的靠前部分，则标注答案在该文本片段的位置为begin位置为具体Tok位置，end位置为[CLS]位置。如果训练用文本片段包含答案的靠后部分，则标注答案在该文本片段的位置为begin位置为[CLS]位置，end位置为具体Tok位置。

方式二，对每个训练用文本片段中每个字符的类别进行标注。

具体的，可以采用BIOES标签体系对每个训练用文本片段中每个字符的类别进行标注，BIOES标签中，B代表答案起始位置、I代表答案中间位置、O代表非答案位置、E代表答案结尾位置、S代表单个字答案位置。具体的，如果训练用文本片段内包含完整答案，除答案片段外，其他字符位置的标签均为O。对于答案片段，如果答案是单个字符，则该字符位置标签为S；如果答案是两个字符，则第一个答案字符位置标签为B，第二个答案字符位置标签为E；如果答案是三个以上字符，则第一个答案字符位置标签为B，最后一个答案字符位置标签为E，其余答案字符位置为I。如果训练用文本片段内不包含答案，则所有字符位置的标签均为O。如果训练用文本片段内包含不完整答案，对于答案靠前字符位置被截断的情况，最后一个答案字符位置标签为E，其余答案字符位置标签为I；对于答案靠后字符位置被截断的情况，第一个答案字符位置标签为B，其余答案字符位置标签为I。

需要说明的是，对一个训练用文本片段，可以采用上述两种方式中的任意一种或两种进行标注，针对不同的标注方式，对文本处理模型进行训练的过程中采用不同的损失函数，对此本申请不进行任何限定。

第二，处理类型为从多个长文本中抽取预设问题的答案。

方式一和方式二可以参见处理类型为从单个长文本中抽取预设问题的答案时的标注方式。

方式三，对每个训练用文本片段所属长文本是否包含预设问题的答案进行标注。

需要说明的是，对一个训练用文本片段，可以采用上述三种方式中的任意一种或多种进行标注，针对不同的标注方式，对文本处理模型进行训练的过程中采用不同的损失函数，对此本申请不进行任何限定。

第三，处理类型为对长文本进行分类。

对各文本片段的类别进行标注。

第四，处理类型为生成长文本的摘要。

对各文本片段中包含的摘要进行标注，比如文本片段中摘要对应的句子标注为1，其他句子标注为0。

考虑到目前的预训练模型使用12层或24层Transformer结构，模型参数过于巨大，模型预测效率较慢，不适用于实时性要求较高的场景，为此，本申请中提出了一种文本处理模型的训练方式，采用该训练方式训练得到的文本处理模型在实时性上有所提升，参阅图2，图2为本申请实施例公开的每一处理类型对应的文本处理模型的训练方法的流程示意图，该方法可以包括以下步骤：

步骤S201：以第一训练用文本片段为训练样本，以第一训练用文本片段标注的与所述处理类型对应的处理结果为样本标签，对教师模型进行训练。

在本申请中，教师模型可以为结构为12层Transformer的预训练模型。第一训练用文本片段标注的与所述处理类型对应的处理结果可以参见上述实施例中的具体标注内容。

步骤S202：利用训练好的教师模型对所述第一训练用文本片段和第二训练用文本片段进行处理，得到所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果。

在本申请中，第二训练用文本片段可以为增强数据集中的训练用文本片段，在第一训练用文本片段的数据规模满足需求时，也可不采用第二训练用文本片段，对此，本申请不进行任何限定。

需要说明的是，利用训练好的教师模型对第一训练用文本片段进行处理得到的第一训练用文本片段的处理结果，与，第一训练用文本片段标注的与处理类型对应的处理结果不同。

步骤S203：以所述第一训练用文本片段和所述第二训练用文本片段为训练样本，以所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果为样本标签，对学生模型进行训练；其中，所述学生模型的参数量小于所述教师模型的参数量。

在本申请中，学生模型可以为结构小于12层的Transformer的预训练模型，比如结构为3层的Transformer的预训练模型。具体的，可以随机初始化得到结构为3层的Transformer的预训练模型作为学生模型，或者使用教师模型的前3层作为学生模型，读入在第一训练用文本片段上微调后的3层BERT模型作为学生模型等，对此本申请不进行任何限定。

步骤S204：将训练好的学生模型作为与所述处理类型对应的文本处理模型。

在本实施例中，学生模型的参数量小于教师模型的参数量，以学生模型作为与所述处理类型对应的文本处理模型，能够提升文本处理模型的预测效率，进而提升其实时处理能力。

在本申请的另一个实施例中，对步骤S102基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段的具体实现方式进行了详细说明，参阅图3，图3为本申请实施例公开的一种基于预置的文本处理模型的处理类型，将长文本分割成多个文本片段的方法的流程示意图，该方法包括以下步骤：

步骤S301：获取预设的第一参量和第二参量，所述第一参量大于所述第二参量；所述第一参量用于确定将所述长文本分割后每个文本片段的长度，所述第二参量用于确定将所述长文本分割后相邻两个文本片段的间隔长度；

步骤S302：基于所述预置的文本处理模型的处理类型，所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置；

作为一种可实施方式，当所述处理类型为从所述长文本中抽取预设问题的答案，或，对所述长文本进行分类；则，所述基于所述处理类型，所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置，包括：

基于所述第一参量确定滑动窗口的大小，基于所述第二参量确定滑动窗口的步长，所述滑动窗口的大小小于等于所述第一参量，所述滑动窗口的步长小于等于所述第二参量；通过将所述大小的滑动窗口以所述步长从所述长文本的首个字符滑动至所述长文本的最后一个字符，确定每个文本片段的起始位置和结束位置。

为便于理解，本申请中给出一种示例，该示例中第一参量为512字，第二参量为128字，滑动窗口的大小等于第一参量，滑动窗口的步长等于第二参量，长文本为1000字，则各文本片段的起始位置和结束位置如图4所示。

作为另一种可实施方式，当所述处理类型为生成所述长文本的摘要；则，所述基于所述处理类型，所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置，包括：获取所述长文本中每个句子的长度；基于所述长文本中各个句子的长度、所述第一参量和所述第二参量，确定每个文本片段的起始位置和结束位置；其中，每个文本片段的起始位置和结束位置之间包括所述长文本中的至少一个句子，各句子的长度总和小于等于所述第一参量；相邻两个文本片段的起始位置之间包括所述长文本中的至少一个句子，各句子的长度总和小于等于所述第二参量。

为便于理解，本申请中给出一种示例，该示例中第一参量为512字，第二参量为128字，每个文本片段的起始位置和结束位置之间包括的句子数量为512字内的最多句子，相邻两个片段的起始位置之间包括的句子数量为128字内的最多句子，则各文本片段的起始位置和结束位置如图5所示。

步骤S303：基于各个文本片段的起始位置和结束位置，将所述长文本分割成多个文本片段。

在本申请中，不同的处理类型对应的文本处理模型，对文本片段的处理方式不同，相应的，基于各文本片段对应的处理结果，得到长文本对应的处理结果的方式也不相同，具体的，将通过以下实施例详细说明。

第一，待处理的长文本为单个长文本，处理类型为从所述单个长文本中抽取预设问题的答案。

该种情况下，与所述文本片段对应的处理结果为，所述文本片段中每个字符的类别标签预测结果，所述类别标签包括答案起始位置标签、答案中间位置标签、答案结尾位置标签、非答案位置标签和单个字答案位置标签。

则，所述基于各个文本片段对应的处理结果，得到与所述长文本对应的处理结果，包括：针对所述单个长文本中的每个字符，确定所述字符对应的文本片段个数，以及所述字符在每个文本片段中的类别标签预测结果；根据所述字符对应的文本片段个数，以及所述字符在每个文本片段中的类别标签预测结果，确定所述字符的类别标签预测最终结果；基于所述单个长文本中各个字符的类别标签预测最终结果，从所述单个长文本中抽取预设问题的答案。

需要说明的是，根据字符对应的文本片段个数，以及字符在每个文本片段中的类别标签预测结果，确定所述字符的类别标签预测最终结果的具体方式可以采用分段概率差、断续补全以及纯I剔除中的任意一种或多种实现。

为便于理解，对分段概率差、断续补全以及纯I剔除分别进行如下介绍：

分段概率差：由于存在多个窗口滑动，长文本的部分字符位置仅有一个窗口的预测结果，对于多个窗口均覆盖到的字符位置，在概率取平均之后的预测标签选择过程里，存在一些区别。对于仅有一个窗口覆盖的字符位置，其概率值不需要任何特殊处理，取预测概率最大的标签作为其预测标签即可。对于多个窗口覆盖的字符位置，首先需要确定该字符位置是否为O标签，判断标准为：P(O)-max(BIES)>threshold，threshold的设定根据覆盖窗口个数，窗口个数为2个(threshold＝0.2)，窗口个数为3个(threshold＝0.3)，窗口个数为4个(threshold＝0.4)，由于窗口大小与滑动步长的限制，不存在覆盖窗口个数超过4个的情况。判断该字符位置不是O标签后，将同一字符位置的多个预测概率分布取平均值，最后平均输出预测概率最大的标签作为其预测标签。其中，max(BIES)表示(B)、P(I)、P(E)、P(S)，4个标签对应概率的最大值

断续补全：对于连续多个预测标签为B、I、I、I、O、I、E这种较为完整的BIE的序列，中间较短的片段为O(数量小于等于2个，且O片段前后字符位置标签均为I)，将O标签直接修正为I；

纯I剔除：对于部分预测为连续多个I的情况，舍弃，仅保留存在B、E标签的字符片段作为其最终答案。

第二，待处理的长文本为多个长文本，所述处理类型为从所述多个长文本中抽取预设问题的答案。

这种情况下，与所述文本片段对应的处理结果，包括：

基于每个文本片段对应的所述答案位置预测结果、所述每个字符的类别标签预测结果和所述长文本预测结果，确定所述文本片段对应的答案预测结果；基于各文本片段对应的答案预测结果，从所述多个长文本中抽取预设问题的答案。

其中，为便于理解，假设针对每个文本片段，该文本片段对应的所述答案位置预测结果的得分为score1、该文本片段对应的每个字符的类别标签预测结果的得分为score2，该文本片段对应的长文本预测结果的得分为score3，则确定该文本片段对应的答案预测结果为max(score1*score2*score3)。

第三，所述处理类型为对所述长文本进行分类。

该种情况下，与所述文本片段对应的处理结果为：所述文本片段的类别预测结果；

基于各文本片段的类别预测结果，确定所述长文本的分类。

具体可以将各文本片段的各类别预测概率分别取平均，得到长文本的各类别的预测结果，取平均预测概率最高的类别为长文本的类别。

第四，所述处理类型为生成所述长文本的摘要。

则，与所述文本片段对应的处理结果为：

基于各文本片段的摘要预测结果，生成所述长文本的摘要。

具体可以将各文本片段中对同一句子预测为摘要的概率取平均，作为该句子预测为摘要的最终概率，综合各句子预测为摘要的最终概率确定概率排名靠前的几个句子为长文本的摘要。

下面对本申请实施例公开的长文本处理装置进行描述，下文描述的长文本处理装置与上文描述的长文本处理方法可相互对应参照。

参照图6，图6为本申请实施例公开的一种长文本处理装置结构示意图。如图6所示，该长文本处理装置可以包括：

获取单元11，用于获取待处理的长文本；

分割单元12，用于基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段，每个文本片段的长度不超过所述文本处理模型所能处理最大文本的长度；

文本片段处理单元13，用于针对每个文本片段，利用所述文本处理模型进行处理，得到所述文本片段对应的处理结果；

长文本处理单元14，用于基于各文本片段对应的处理结果，得到与所述长文本对应的处理结果。

其中，所述学生模型的参数量小于所述教师模型的参数量。

可选地，所述分割单元，包括：

则，所述位置确定单元，包括：

可选地，所述长文本处理单元，包括：

所述文本片段的类别预测结果；

则，所述长文本处理单元，包括：

可选地，所述处理类型为生成所述长文本的摘要；

则，所述位置确定单元，包括：

则，所述长文本处理单元，包括：

参照图7，图7为本申请实施例提供的长文本处理设备的硬件结构框图，参照图7，长文本处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待处理的长文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待处理的长文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种长文本处理方法，其特征在于，所述方法包括：

获取待处理的长文本；

2.根据权利要求1所述的方法，其特征在于，每一处理类型对应的所述文本处理模型是以训练用文本片段为训练样本，以每个训练用文本片段标注的与所述处理类型对应的处理结果为样本标签，对预训练模型进行微调得到的。

3.根据权利要求2所述的方法，其特征在于，每一处理类型对应的所述文本处理模型是采用如下方式进行训练的：

其中，所述学生模型的参数量小于所述教师模型的参数量。

4.根据权利要求1所述的方法，其特征在于，所述基于预置的文本处理模型的处理类型，将所述长文本分割成多个文本片段，包括：

5.根据权利要求4所述的方法，其特征在于，所述处理类型为从所述长文本中抽取预设问题的答案，或，对所述长文本进行分类；

6.根据权利要求5所述的方法，其特征在于，所述待处理的长文本为单个长文本，所述处理类型为从所述单个长文本中抽取预设问题的答案时，与所述文本片段对应的处理结果为：

7.根据权利要求6所述的方法，其特征在于，所述基于各个文本片段对应的处理结果，得到与所述长文本对应的处理结果，包括：

8.根据权利要求5所述的方法，其特征在于，所述待处理的长文本为多个长文本，所述处理类型为从所述多个长文本中抽取预设问题的答案时，与所述文本片段对应的处理结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于各个文本片段对应的处理结果，得到与所述长文本对应的处理结果，包括：

10.根据权利要求5所述的方法，其特征在于，所述处理类型为对所述长文本进行分类时，与所述文本片段对应的处理结果为：

所述文本片段的类别预测结果；

基于各文本片段的类别预测结果，确定所述长文本的分类。

11.根据权利要求4所述的方法，其特征在于，所述处理类型为生成所述长文本的摘要；

获取所述长文本中每个句子的长度；

12.根据权利要求11所述的方法，其特征在于，所述处理类型为生成所述长文本的摘要时，与所述文本片段对应的处理结果为：

基于各文本片段的摘要预测结果，生成所述长文本的摘要。

13.一种长文本处理装置，其特征在于，所述装置包括：

获取单元，用于获取待处理的长文本；

14.一种长文本处理设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至12中任一项所述的长文本处理方法的各个步骤。

15.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至12中任一项所述的长文本处理方法的各个步骤。