CN113673243B

CN113673243B - 文本类型识别方法及装置

Info

Publication number: CN113673243B
Application number: CN202110967393.3A
Authority: CN
Inventors: 杨一帆; 刘悦华
Original assignee: Shanghai Pudong Huayu Information Technology Co ltd
Current assignee: Shanghai Pudong Huayu Information Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2022-04-22
Anticipated expiration: 2041-08-23
Also published as: CN113673243A

Abstract

本申请提供一种文本类型识别方法及装置，用于解决现有技术中文本类型识别准确度低的技术问题。其中，一种文本类型识别方案，包括：获取语料数据；去除所述语料数据中的无效信息，生成预处理语料数据；对所述预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合；计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句；识别关键句中的关键词组，确定文本类型。本发明通过识别语料数据中的关键句、关键词，确定文本类型。并且通过去除语料数据中的无效信息，避免了无效信息被误判为关键信息，从而提高了文本类型识别的准确度。

Description

文本类型识别方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种文本类型识别方法及装置。

背景技术

案由对于法律文书检索十分重要。现实生活中，法律文书的案由分类通常需要由法官和陪审团根据积累的经验和专业知识进行。而没有法律基础的普通民众想要了解某个法律裁判文书的案由类别，通常是比较困难的。即便是专业的法律从业人员，也需要一定的时间才能确定案件的案由类别。案由类别的复杂性也导致熟悉所有类型的案由的专业人员比较少。

随着法律行业信息化建设的不断深入，不仅需要对海量法律文书数据进行采集和治理，更需要计算机自动对案由提供精确化的识别、分类。

在实现现有技术的过程中，发明人发现：

现有技术中的案由分类准确度低。其主要原因在于，法律文书中的法律信息过多，有很多无效信息会被误判为关键信息，从而影响判断结果的准确度。

因此，需要提供一种文本类型识别方案，用于解决现有技术中文本类型识别准确度低的技术问题。

发明内容

本申请实施例提供一种文本类型识别方案，用于解决现有技术中文本类型识别准确度低的技术问题。

具体的，一种文本类型识别方法，包括以下步骤：

获取语料数据；

去除所述语料数据中的无效信息，生成预处理语料数据；

对所述预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合；

计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句；

识别关键句中的关键词组，确定文本类型。

进一步的，去除所述语料数据中的无效信息，生成预处理语料数据，具体包括：

识别所述语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合；

扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合；

根据更新的第一类实体文本位置集合，删除语料数据中的第一实体文本，生成待去重语料数据；

输入待去重语料数据至去重模型，生成预处理语料数据；

其中，所述去重模型为预训练模型，用于删除待去重语料数据中与模板数据集合重复的文本内容，生成预处理语料数据；

所述模板数据集合为所述去重模型预训练所记录的文本内容。

进一步的，所述去重模型的训练过程包括：

获取第一待去重语料数据；

记录第一待去重语料数据，生成参考数据集合；

获取第二待去重语料数据；

记录第二待去重语料数据，更新参考数据集合；

记录参考数据集合中重复出现的文本内容，生成模板数据集合；

获取第三待去重语料数据，更新参考数据集合；

记录参考数据集合中重复出现的文本内容，更新模板数据集合。

进一步的，扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体包括：

根据第一类实体文本位置集合，获取第一类实体文本的位置；

根据第一类实体文本的位置，识别第一类实体文本的前一个文本；

判断第一类实体文本的前一个文本是否为预设符号；

当第一类实体文本的前一个文本是预设符号，则将第一类实体文本的位置向前扩大至预设符号位置；

当第一类实体文本的前一个文本不是预设符号，则将第一类实体文本的位置不变。

根据第一类实体文本位置集合，获取任意一个第一类实体文本的位置；

根据第一类实体文本的位置，识别第一类实体文本的后一个文本；

判断第一类实体文本的后一个文本是否为预设符号；

当第一类实体文本的后一个文本是预设符号，则将第一类实体文本的位置向后扩大至预设符号位置；

当第一类实体文本的后一个文本不是预设符号，则将第一类实体文本的位置不变。

进一步的，去除所述语料数据中的无效信息，生成预处理语料数据，具体还包括：

统一设定所述语料数据编码方式；

识别所述统一编码后语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。

输入预处理语料数据至去停用句模型，删除所述预处理语料数据中的停用句，生成新的预处理语料数据；

其中，所述去停用句模型为预训练模型，用于去除原预处理语料数据中与停用句集合重复的文本内容，输出新的预处理语料数据；

所述停用句集合为所述去停用句模型预训练所记录的文本内容。

进一步的，所述去停用句模型的训练过程包括：

获取若干预处理语料数据；

识别所述若干预处理语料数据中的第二类实体文本，并记录包括第二类实体文本的句子，作为第二类实体文本句；

记录包含第二类实体文本句的预处理语料数据数量；

根据包含第二类实体文本句的预处理语料数据数量、所有预处理语料数据数量，计算第二类实体文本句在当前预处理语料数据中的置信度；

当第二类实体文本句的置信度大于或等于预设第二判断阈值，记录第二类实体文本句为停用句集合。

本申请实施例还提供一种文本类型识别装置。

具体的，一种文本类型识别装置，包括：

获取模块，用于获取语料数据；

预处理模块，用于去除所述语料数据中的无效信息，生成预处理语料数据；

分句模块，用于对所述预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合；

计算模块，用于计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句；

分类模块，用于识别关键句中的关键词组，确定文本类型。

进一步的，所述预处理模块用于去除所述语料数据中的无效信息，生成预处理语料数据，具体用于：

输入待去重语料数据至去重模型，生成预处理语料数据；

本申请实施例提供的技术方案，至少具有如下有益效果：

本发明通过识别语料数据中的关键句、关键词，确定文本类型。通过去除语料数据中的无效信息，避免了无效信息被误判为关键信息，从而提高了文本类型识别的准确度。

附图说明

此处所说明的附图仅用于提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种文本类型识别方法的流程框图。

图2为本申请实施例提供的一种语料数据预处理的流程框图。

图3为本申请实施例提供的一种更新第一类实体文本位置集合的流程框图。

图4为本申请实施例提供的一种文本类型识别装置的结构示意图。

100 文本类型识别装置

11 获取模块

12 预处理模块

13 分句模块

14 计算模块

15 识别模块

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，本申请公开一种文本类型识别方法，包括以下步骤：

S110：获取语料数据。

可以理解的是，所述语料数据至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。

在本申请提供的一种具体实施方式中，所述语料数据可以表现为法律文书，所述法律文书包含法律信息。具体的，所述语料数据表现为收案审批单、谈话笔录、授权委托书、起诉书、上诉书、反诉状、诉讼保全、证据保全、法院裁定书、判决书、调解书、结案报告中至少一种法律文书。

法律文书的类别由法律文书中的案由信息决定。识别法律文书的类别，即识别法律文书的案由信息。

S120：去除所述语料数据中的无效信息，生成预处理语料数据。

所述无效信息可以理解为不能作为文本类型判断依据的信息。可以理解的是，一份语料数据的文本较多，且文本中很多的信息都与文本类型的判断无关。如果语料数据中存在与文本类型判断无关的信息，这些无关信息可能会被误判为识别文本类型的关键信息，从而影响判断结果的准确度。

例如，通常一份案件涉及的法律文书较多，并且法律文书中的法律信息也过多。这其中很多的信息都与案由判断无关，但却可能会被误判为关键信息，从而影响判断结果的准确度。

为此，本发明通过去除所述语料数据中的无效信息，避免了无效信息被误判为关键信息，从而提高了文本类型识别的准确度。

另外，需要指出的是，语料数据中可能会出现格式、结构相同的语句。通常格式、结构相同的语句，都用于表明对象信息。这些对象信息不作为判断文本类型的关键信息，因此可以删去。例如，由于法律文书的特殊性，法律文书需按照规定的结构进行撰写，以及按照固定的要求进行叙述。所以法律文书中会有很多相似的语句结构与段落结构。甚至在一些相同案由的法律文书中，某些段落除了当事人名字、法院名称、公司名称、货币、日期等法律实体信息外，剩下的内容会高度相似或者相同。

请参照图2，在本申请提供的一种具体实施方式中，步骤S120具体包括：

S11：识别所述语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合；

S12：扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合；

S13：根据更新的第一类实体文本位置集合，删除语料数据中的第一实体文本，生成待去重语料数据；

S14：输入待去重语料数据至去重模型，生成预处理语料数据。

S11：识别所述语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。所述第一类实体文本可以理解为是法律文书中与各实体对象信息相关的文本。例如当事人名字、法院名称、公司名称、货币、日期等信息的文本。

进一步的，在本申请提供的一种具体实施方式中，通常采用语言训练模型识别所述语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。所述语言训练模型可以是Bert(Bidirectional EncoderRepresentations from Transformer)语言预训练模型或基于Bert语言预训练模型开发的其他语言预训练模型。例如，Bert+CRF(Conditional Random Field)模型、Bert+LSTM(LongShort-Term

Memory)+CRF模型、Bert+BiLSTM(Bi-directional Long Short-Term

Memory)+CRF模型等。

其中，Bert语言预训练模型是谷歌研究人员于2018年提出的一种语言预训练模型，通过在33亿文本的语料上训练语言模型，分别在不同的下游任务上微调，这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练，在训练过程中提出了遮挡机制和下一句预测机制，然后根据不同的下游任务基于微调的方式，对下层网络的输出方式进行调整。

所述LSTM长短期记忆、BiLSTM双向长短期记忆为两种算法，都是时间递归神经网络模型，适合处理时间序列中间隔或延迟相对较长的重要事件。且LSTM或BiLSTM都需要大量的存储带宽来计算。所以Bert+LSTM+CRF模型或Bert+BiLSTM+CRF模型会非常耗费资源。

考虑到本发明中的语言训练模型主要用于识别出姓名、公司名称、金额、日期等法律实体信息，并不需要或者并不依赖于将上下文作为一个参考。因此，本申请的语言训练模型优选为Bert+CRF模型，用于识别语料数据中的第一类实体文本。

本申请优选采用Bert+CRF模型识别语料数据中的第一类实体文本。所述Bert+CRF模型是在谷歌开源的Bert模型的基础上，在Bert模型的输出层加入了CRF层，生成所述Bert+CRF模型。需要指出的是，将CRF层加入Bert模型，可以使输出的预测标签添加一些约束来保证预测的标签的合法。在训练数据训练时，这些约束可以通过CRF层实现自动学习。并且，在Bert模型加入了CRF层后，能够大大降低标签序列预测中出现非法序列的概率，降低了后续训练模型欠拟合的风险。

具体的，将语料数据输入至Bert+CRF模型，可以得到语料数据中相关实体数据的起始位置和结束位置，例如，姓名起始位置和结束位置、组织名起始位置和结束位置、地名起始位置和结束位置、货币起始位置和结束位置、日期起始位置和结束位置中至少一项第一类实体文本的位置。并记录每个第一类实体文本的起始位置、结束位置，生成第一类实体文本位置集合。

当然，本领域技术人员可以理解，除了Bert语言预训练模型以外，还可以使用其它的语言预训练模型，在使用该语言预训练模型对法律文书进行实体文本的识别时，首先基于大规模法律领域语料对模型进行预训练，使模型更适合处理法律领域的自然语言处理问题。

考虑到可能会出现多个第一类实体文本连续出现的情况，采用语言预训练模型能识别出的第一类实体文本仅限于文字。如果删除第一类实体文本后，又将剩下许多无意义的标点符号。例如，法律文书中存在“第一人名、第二人名申请再审案件。”输入语料数据至Bert+CRF模型后，Bert+CRF模型将判断出“第一人名”和“第二人名”两个实体。后续将两个实体删除后，原语料数据则变为“、申请再审案件。”的语句。可以理解的是，上述语句中的“、”标点符号是无意义。我们期望能够删去无意义的标点符号，以便尽可能避免无效信息被误判为关键信息。但语料数据中的所有标点符号不可能都是无意义的。因此，也不能够统一删除语料数据中的所有标点符号。

为此，发明人设计步骤S12：扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合。

可以理解的是，扫描第一类实体文本的前后文本，实际上是根据第一类实体文本的位置，确定第一类实体文本的前后文本是否存在标点符号。所述预设判断方案表现为，根据第一类实体文本的前后文本是否为预设标点符号，进而判断是否扩大第一类实体文本的位置范围。即将预设标点符号也视为第一类实体文本的一部分，便于后续删除。进一步的，考虑到句号用于中断句子与句子之间的语义关系，逗号用于延续句子与句子之间的语义关系。因此，语料数据中的逗号或句号不可能是无意义的标点符号。所以在本申请的一种具体实施方式中，所述预设标点符号可以是除逗号或句号外的所有标点符号。

进一步的，在本申请提供的一种具体实施方式中，扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体实现过程可以表现为：

根据第一类实体文本位置集合，获取第一类实体文本的位置；根据第一类实体文本的位置，识别第一类实体文本的前一个文本；判断第一类实体文本的前一个文本是否为预设符号；当第一类实体文本的前一个文本是预设符号，则将第一类实体文本的位置向前扩大至预设符号位置；当第一类实体文本的前一个文本不是预设符号，则将第一类实体文本的位置不变。

或者，在本申请提供的另一种具体实施方式中，扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体实现过程也可以表现为：

根据第一类实体文本位置集合，获取任意一个第一类实体文本的位置；根据第一类实体文本的位置，识别第一类实体文本的后一个文本；判断第一类实体文本的后一个文本是否为预设符号；当第一类实体文本的后一个文本是预设符号，则将第一类实体文本的位置向后扩大至预设符号位置；当第一类实体文本的后一个文本不是预设符号，则将第一类实体文本的位置不变。

请参照图3，在本申请提供的又一种具体实施方式中，扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体实现过程还可以表现为：

根据第一类实体文本位置集合，获取第一类实体文本的位置；根据第一类实体文本的位置，识别第一类实体文本的前一个文本；判断第一类实体文本的前一个文本是否为预设符号；当第一类实体文本的前一个文本是预设符号，则将第一类实体文本的位置向前扩大至预设符号位置；当第一类实体文本的前一个文本不是预设符号，则将第一类实体文本的位置不变；根据第一类实体文本的位置，识别第一类实体文本的后一个文本；判断第一类实体文本的后一个文本是否为预设符号；当第一类实体文本的后一个文本是预设符号，则将第一类实体文本的位置向后扩大至预设符号位置；当第一类实体文本的后一个文本不是预设符号，则将第一类实体文本的位置不变。

S13：根据更新的第一类实体文本位置集合，删除语料数据中的第一实体文本，生成待去重语料数据。

可以理解的是，原本的第一类实体文本位置集合或者更新后的第一类实体文本位置集合，所包含的都是对于案由判断无意义的信息。因此，无论是根据原本的第一类实体文本位置集合，还是根据更新后的第一类实体文本位置集合，都可以将第一类实体文本进行删除。而删除第一类实体文本后的语料数据，其剩下的文本内容是高度相似或者相同的。

为了进一步降低对于案由判断无意义的信息，需要对删除第一类实体文本后的语料数据进行去重。因此，将删除第一类实体文本后的语料数据记为待去重语料数据。

需要指出的是，所述去重模型为预训练模型，用于删除待去重语料数据中与模板数据集合重复的文本内容，生成预处理语料数据；

进一步的，在本申请提供的一种具体实施方式中，所述去重模型的训练过程包括：

获取第一待去重语料数据；记录第一待去重语料数据，生成参考数据集合；获取第二待去重语料数据；记录第二待去重语料数据，更新参考数据集合；记录参考数据集合中重复出现的文本内容，生成模板数据集合；获取第三待去重语料数据，更新参考数据集合；记录参考数据集合中重复出现的文本内容，更新模板数据集合。

可以理解的是，此处将输入的待去重语料数据记作第一待去重语料数据、第二待去重语料数据、第三待去重语料数据，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。所述参考数据集合记录的是各待去重语料数据的文本内容，所述模板数据集合记录的是各待去重语料数据重复的文本内容。

去重后的语料数据记为预处理语料数据。所述预处理语料数据体积较小，便于后续快速处理。且大部分都是便于案由判断的关键信息。

S130：对所述预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合。

可以理解的是，由上述步骤输出的预处理语料数据的体积较小，因此将预处理语料数据的文本内容进行分词的工作量低，分词速度快。将预处理语料数据分词后的若干分词单元具有位置信息，根据若干分词单元的位置信息和预处理语料数据中的标点符号，可以生成由若干分词单元组成的若干句子集合。

S140：计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句。

考虑到作为文本类型判断的关键句通常包含相似的词语或者具有相似的结构。因此，可以记录大部分文本中有关判断文本类型关键句的语句结构。通过计算语义相似度，能够找出作为判断当前文本类型依据的关键句。

例如，由于法律文书的特殊性，法律文书需按照规定的结构进行撰写，以及按照固定的要求进行叙述。因此，法律文书中有关判断案由的句子会有很多相似的语句结构，即出现特定的词组，以及所述特定词组的位置排序。通过预训练，可以记录大部分法律文书中有关判断案由句子的语句结构。

将预训练中判断案由句子的语句结构记为模板句。通过计算当前输入的若干句子集合中各句子与模板句的语义相似度，可以选取若干句子集合中语义相似度超过第一判断阈值的句子，记为关键句。换句话说，只要是语义相似度超过第一判断阈值的句子，均可以作为判断文本分类的依据。

S150：识别关键句中的关键词组，确定文本类型。

考虑到若干句子集合中语义相似度超过第一判断阈值的句子可能存在多句，即存在多句关键句。此时，需要分别识别关键句中的关键词组，以便确定文本类型。

进一步的，考虑到若干句子集合中语义相似度超过第一判断阈值的句子可能存在多句，即存在多句关键句。多句关键句的存在，也可能会出现误判文本类型的情况，从而导致判断结果准确度低。

为此，发明人设计去除预处理语料数据中的停用句。所述停用句可以理解为是预处理语料数据中非事实信息，即理由陈述和判断结果。可以理解的是，非事实信息中的主观陈述较多。例如，每个案件的理由陈述或判断结果中的主观陈述较多，但理由陈述或判断结果实质上并不作为判断文本分类的依据。并且，由于理由陈述或判断结果大部分都不相同，因此不能被去重的操作删除。如果预处理语料数据中包含非事实信息，反而可能影响分类判断结果，从而导致判断结果准确度低。

具体的，在本申请提供的一种具体实施方式中，步骤S120去除所述语料数据中的无效信息，生成预处理语料数据，还包括：

S15：输入预处理语料数据至去停用句模型，删除所述预处理语料数据中的停用句，生成新的预处理语料数据。

其中，所述去停用句模型为预训练模型，用于去除原预处理语料数据中与停用句集合重复的文本内容，输出新的预处理语料数据。所述停用句集合为所述去停用句模型预训练所记录的文本内容。

所述去停用句模型的训练过程包括：

获取若干预处理语料数据；识别所述若干预处理语料数据中的第二类实体文本，并记录包括第二类实体文本的句子，作为第二类实体文本句；记录包含第二类实体文本句的预处理语料数据数量；根据包含第二类实体文本句的预处理语料数据数量、所有预处理语料数据数量，计算第二类实体文本句在当前预处理语料数据中的置信度；当第二类实体文本句的置信度大于或等于预设第二判断阈值，记录第二类实体文本句为停用句集合。

其中，所述第二类实体文本可以理解为是法律文书中非事实信息的文本，即理由陈述的文本和判断结果信息的文本。所述预设第二判断阈值可以理解为是标准的置信度值，当第二类实体文本句的置信度大于或等于预设第二判断阈值，则表明第二类实体文本句被认为是停用句，需要被删除。

根据包含第二类实体文本句的预处理语料数据数量、所有预处理语料数据数量，计算第二类实体文本句在当前预处理语料数据中的置信度，具体可以表现为：

以包含第二类实体文本句的预处理语料数据数量，除以预处理语料数据数量总数，可以计算出第二类实体文本句的出现概率；

再以第二类实体文本句的出现概率，除以类型总数，可以得到第二类实体文本句的置信度。

其中，当本申请的文本类型识别方法具体应用于法律文书的案由分类，上述类型总数可以理解为法律文书的案由类型总数。此时，类型总数遵循实际案由类型总数，是一个固定值。

进一步的，考虑到在具体的应用场景中，可能出现由于不同的编码格式，导致语料数据中的空格、标点符号会有不同样式。语料数据的编码格式不同，可能会导致在后续的识别、删除操作中出现遗漏。为此，在获取语料数据后，需要先对格式、标点进行统一化处理。

具体的，去除所述语料数据中的无效信息，生成预处理语料数据，还包括：

统一设定所述语料数据编码方式；

统一设定所述语料数据编码方式可以表现为，将语料数据的编码方式统一设定为UTF-8。然后去除语料数据中的空格、跳格(\t)，换行符号(\n)等格式切换符号。之后识别语料数据中的半角符号，将语料数据中的半角符号替换为中文的全角符号。

下面介绍本申请提供的文本类型识别方法的具体实现过程：

当有若干法律文书需要进行案由分类时，需要先确定法律文书对应的案由。

首先获取输入的语料数据，将语料数据的编码方式统一设定为UTF-8。然后去除语料数据中的空格、跳格(\t)，换行符号(\n)等格式切换符号。之后识别语料数据中的半角符号，将语料数据中的半角符号替换为中文的全角符号。统一设定所述语料数据编码方式。

接下来，通过Bert+CRF模型识别所述统一编码后语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。例如，将第一类实体文本位置保存为P(Start,End)，生成第一类实体文本位置集合List。

之后根据第一类实体文本位置集合List，获取第一类实体文本的位置P(Start,End)。根据第一类实体文本的位置P(Start,End)，识别第一类实体文本的前一个文本。判断第一类实体文本的前一个文本是否为逗号、句号或文字。

如果第一类实体文本的前一个文本是逗号、句号或文字，则将第一类实体文本的位置不变，第一类实体文本的位置依然是P(Start,End)。如果第一类实体文本的前一个文本不是逗号、句号或文字，则将第一类实体文本的位置向前扩大一个文本位，即第一类实体文本的位置更新为P(Start-1,End)。

接下来根据第一类实体文本的位置P(Start,End)，识别第一类实体文本的后一个文本。判断第一类实体文本的后一个文本是否为逗号、句号或文字。

如果第一类实体文本的后一个文本是逗号、句号或文字，则将第一类实体文本的位置不变，第一类实体文本的位置依然是P(Start,End)。

如果第一类实体文本的后一个文本不是逗号、句号或文字，则将第一类实体文本的位置向后扩大一个文本位，即第一类实体文本的位置更新为P(Start,End-1)。

重新记录第一类实体文本位置，更新第一类实体文本位置集合List为List’。之后根据更新的第一类实体文本位置集合List’，删除语料数据中的第一实体文本，生成待去重语料数据。然后输入待去重语料数据至去重模型，生成预处理语料数据。然后输入预处理语料数据至去停用句模型，删除所述预处理语料数据中的停用句，生成新的预处理语料数据。

接下来对所述新的预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合。再计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句。最后识别关键句中的关键词组，确定文本类型。

本申请实施例所提供的文本类型识别方法，通过识别语料数据中的关键句、关键词，从而确定文本类型。并且通过去除语料数据中的无效信息，避免了无效信息被误判为关键信息，从而提高了文本类型识别的准确度。

请参照图4，为支持文本类型识别方法，本申请还提供一种文本类型识别装置100，包括：

获取模块11，用于获取语料数据；

预处理模块12，用于去除所述语料数据中的无效信息，生成预处理语料数据；

分句模块13，用于对所述预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合；

计算模块14，用于计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句；

识别模块15，用于识别关键句中的关键词组，确定文本类型。

可以理解的是，获取模块11用于获取语料数据。其中，所述语料数据至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。在本申请提供的一种具体实施方式中，所述语料数据可以表现为法律文书，所述法律文书包含法律信息。具体的，所述语料数据表现为收案审批单、谈话笔录、授权委托书、起诉书、上诉书、反诉状、诉讼保全、证据保全、法院裁定书、判决书、调解书、结案报告中至少一种法律文书。

法律文书的类别由法律文书的案由信息决定。本申请提供的文本类型识别装置100识别法律文书的类别，即识别法律文书的案由信息。

预处理模块12用于去除所述语料数据中的无效信息，生成预处理语料数据。

为此，文本类型识别装置100通过预处理模块12去除所述语料数据中的无效信息，避免了无效信息被误判为关键信息，从而提高了文本类型识别的准确度。

具体的，在本申请提供的一种具体实施方式中，所述预处理模块12用于去除所述语料数据中的无效信息，生成预处理语料数据，具体用于：

输入待去重语料数据至去重模型，生成预处理语料数据。

需要指出的是，所述第一类实体文本可以理解为是法律文书中与各实体对象信息相关的文本。例如当事人名字、法院名称、公司名称、货币、日期等信息的文本。

进一步的，在本申请提供的一种具体实施方式中，预处理模块12通常采用语言训练模型识别所述语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。所述第一类实体文本可以理解为是法律文书中与各实体对象信息相关的文本。例如当事人名字、法院名称、公司名称、货币、日期等信息的文本。所述语言训练模型可以是Bert语言预训练模型或基于Bert语言预训练模型开发的其他语言预训练模型。例如，Bert+CRF模型、Bert+LSTM+CRF模型、Bert+BiLSTM+CRF模型等。

具体的，预处理模块12将语料数据输入至Bert+CRF模型，可以得到语料数据中相关实体数据的起始位置和结束位置，例如，姓名起始位置和结束位置、组织名起始位置和结束位置、地名起始位置和结束位置、货币起始位置和结束位置、日期起始位置和结束位置中至少一项第一类实体文本的位置。并记录每个第一类实体文本的起始位置、结束位置，生成第一类实体文本位置集合。

考虑到可能会出现多个第一类实体文本连续出现的情况，预处理模块12采用语言预训练模型能识别出的第一类实体文本仅限于文字。如果删除第一类实体文本后，又将剩下许多无意义的标点符号。我们期望能够删去无意义的标点符号，以便尽可能避免无效信息被误判为关键信息。但语料数据中的所有标点符号不可能都是无意义的。因此，也不能够统一删除语料数据中的所有标点符号。

为此，预处理模块12还用于扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合。

可以理解的是，所述预处理模块12扫描第一类实体文本的前后文本，实际上是预处理模块12根据第一类实体文本的位置，确定第一类实体文本的前后文本是否存在标点符号。所述预设判断方案表现为，预处理模块12根据第一类实体文本的前后文本是否为预设标点符号，进而判断是否扩大第一类实体文本的位置范围。即预处理模块12将预设标点符号也归为第一类实体文本的一部分，便于后续删除。进一步的，考虑到句号用于中断句子与句子之间的语义关系，逗号用于延续句子与句子之间的语义关系。因此，语料数据中的逗号或句号不可能是无意义的标点符号。所以在本申请的一种具体实施方式中，所述预设标点符号可以是除逗号或句号外的所有标点符号。

进一步的，在本申请提供的一种具体实施方式中，预处理模块12扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体实现过程可以表现为：

预处理模块12根据第一类实体文本位置集合，获取第一类实体文本的位置；预处理模块12根据第一类实体文本的位置，识别第一类实体文本的前一个文本；预处理模块12判断第一类实体文本的前一个文本是否为预设符号；当第一类实体文本的前一个文本是预设符号，则预处理模块12将第一类实体文本的位置向前扩大至预设符号位置；当第一类实体文本的前一个文本不是预设符号，则预处理模块12将第一类实体文本的位置不变。

或者，在本申请提供的另一种具体实施方式中，预处理模块12扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体实现过程也可以表现为：

预处理模块12根据第一类实体文本位置集合，获取任意一个第一类实体文本的位置；预处理模块12根据第一类实体文本的位置，识别第一类实体文本的后一个文本；预处理模块12判断第一类实体文本的后一个文本是否为预设符号；当第一类实体文本的后一个文本是预设符号，则预处理模块12将第一类实体文本的位置向后扩大至预设符号位置；当第一类实体文本的后一个文本不是预设符号，则预处理模块12将第一类实体文本的位置不变。

又或者，在本申请提供的又一种具体实施方式中，预处理模块12扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体实现过程还可以表现为：

预处理模块12根据第一类实体文本位置集合，获取第一类实体文本的位置；预处理模块12根据第一类实体文本的位置，识别第一类实体文本的前一个文本；预处理模块12判断第一类实体文本的前一个文本是否为预设符号；当第一类实体文本的前一个文本是预设符号，则预处理模块12将第一类实体文本的位置向前扩大至预设符号位置；当第一类实体文本的前一个文本不是预设符号，则预处理模块12将第一类实体文本的位置不变；预处理模块12根据第一类实体文本的位置，识别第一类实体文本的后一个文本；预处理模块12判断第一类实体文本的后一个文本是否为预设符号；当第一类实体文本的后一个文本是预设符号，则预处理模块12将第一类实体文本的位置向后扩大至预设符号位置；当第一类实体文本的后一个文本不是预设符号，则预处理模块12将第一类实体文本的位置不变。

预处理模块12还用于根据更新的第一类实体文本位置集合，删除语料数据中的第一实体文本，生成待去重语料数据。

可以理解的是，原本的第一类实体文本位置集合或者更新后的第一类实体文本位置集合，所包含的都是对于案由判断无意义的信息。因此，无论是预处理模块12根据原本的第一类实体文本位置集合，还是预处理模块12根据更新后的第一类实体文本位置集合，都可以将第一类实体文本进行删除。而删除第一类实体文本后的语料数据，其剩下的文本内容是高度相似或者相同的。

为了进一步降低对于案由判断无意义的信息，需要预处理模块12对删除第一类实体文本后的语料数据进行去重。因此，预处理模块12将删除第一类实体文本后的语料数据记为待去重语料数据。

预处理模块12还用于输入待去重语料数据至去重模型，生成预处理语料数据。

具体的，所述去重模型为预训练模型，用于删除待去重语料数据中与模板数据集合重复的文本内容，生成预处理语料数据；

分句模块13用于对所述预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合。

可以理解的是，由预处理模块12输出的预处理语料数据的体积较小，因此分句模块13将预处理语料数据的文本内容进行分词的工作量低，分词速度快。分句模块13将预处理语料数据分词后的若干分词单元具有位置信息，分句模块13根据若干分词单元的位置信息和预处理语料数据中的标点符号，可以生成由若干分词单元组成的若干句子集合。

计算模块14用于计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句。

考虑到作为文本类型判断的关键句通常包含相似的词语或者具有相似的结构。因此，计算模块14可以记录大部分文本中有关判断文本类型关键句的语句结构。计算模块14通过计算语义相似度，能够找出作为判断当前文本类型依据的关键句。

例如，由于法律文书的特殊性，法律文书需按照规定的结构进行撰写，以及按照固定的要求进行叙述。因此，法律文书中有关判断案由的句子会有很多相似的语句结构，即出现特定的词组，以及所述特定词组的位置排序。计算模块14通过预训练，可以记录大部分法律文书中有关判断案由句子的语句结构。

计算模块14将预训练中有关判断案由句子的语句结构记为模板句。通过计算当前输入的若干句子集合中各句子与模板句的语义相似度，计算模块14可以选取若干句子集合中语义相似度超过第一判断阈值的句子，记为关键句。换句话说，只要是语义相似度超过第一判断阈值的句子，均可以作为判断文本分类的依据。

识别模块15用于识别关键句中的关键词组，确定文本类型。

考虑到若干句子集合中语义相似度超过第一判断阈值的句子可能存在多句，即存在多句关键句。此时，需要识别模块15分别识别关键句中的关键词组，以便确定文本类型。

为此，识别模块15用于去除预处理语料数据中的停用句。所述停用句可以理解为是预处理语料数据中非事实信息，即理由陈述和判断结果。可以理解的是，非事实信息中的主观陈述较多。例如，每个案件的理由陈述或判断结果中的主观陈述较多，但理由陈述或判断结果实质上并不作为判断文本分类的依据。并且，由于理由陈述或判断结果大部分都不相同，因此不能被去重的操作删除。如果预处理语料数据中包含非事实信息，反而可能影响分类判断结果，从而导致判断结果准确度低。

为解决上述问题，在本申请提供的一种具体实施方式中，预处理模块12用于去除所述语料数据中的无效信息，生成预处理语料数据，具体还用于：

输入预处理语料数据至去停用句模型，删除所述预处理语料数据中的停用句，生成新的预处理语料数据。

所述去停用句模型的训练过程包括：

其中，当本申请的文本类型识别装置100具体应用于法律文书的案由分类，上述类型总数可以理解为法律文书的案由类型总数。此时，类型总数遵循实际案由类型总数，是一个固定值。

进一步的，考虑到在具体的应用场景中，可能出现由于不同的编码格式，导致语料数据中的空格、标点符号会有不同样式。语料数据的编码格式不同，可能会导致在后续的识别、删除操作中出现遗漏。为此，在获取模块11获取语料数据后，还需要预处理模块12先对格式、标点进行统一化处理。

具体的，预处理模块12用于去除所述语料数据中的无效信息，生成预处理语料数据，具体还用于：

统一设定所述语料数据编码方式；

预处理模块12统一设定所述语料数据编码方式可以表现为，将语料数据的编码方式统一设定为UTF-8。然后去除语料数据中的空格、跳格(\t)，换行符号(\n)等格式切换符号。之后预处理模块12识别语料数据中的半角符号，将语料数据中的半角符号替换为中文的全角符号。

下面介绍本申请提供的文本类型识别方法的具体实现过程：

将若干法律文书输入至基于大规模法律领域语料进行过预训练的文本识别装置100。

文本识别装置100的获取模块11首先获取输入的语料数据。之后预处理模块12将语料数据的编码方式统一设定为UTF-8。然后预处理模块12去除语料数据中的空格、跳格(\t)，换行符号(\n)等格式切换符号。之后预处理模块12识别语料数据中的半角符号，将语料数据中的半角符号替换为中文的全角符号。预处理模块12统一设定所述语料数据编码方式。

接下来，预处理模块12通过Bert+CRF模型，识别所述统一编码后语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。例如，预处理模块12将第一类实体文本位置保存为P(Start,End)，生成第一类实体文本位置集合List。

之后预处理模块12根据第一类实体文本位置集合List，获取第一类实体文本的位置P(Start,End)。预处理模块12根据第一类实体文本的位置P(Start,End)，识别第一类实体文本的前一个文本。预处理模块12判断第一类实体文本的前一个文本是否为逗号、句号或文字。

如果第一类实体文本的前一个文本是逗号、句号或文字，则预处理模块12将第一类实体文本的位置不变，第一类实体文本的位置依然是P(Start,End)。如果第一类实体文本的前一个文本不是逗号、句号或文字，则预处理模块12将第一类实体文本的位置向前扩大一个文本位，即第一类实体文本的位置更新为P(Start-1,End)。

接下来预处理模块12根据第一类实体文本的位置P(Start,End)，识别第一类实体文本的后一个文本。预处理模块12判断第一类实体文本的后一个文本是否为逗号、句号或文字。

如果第一类实体文本的后一个文本是逗号、句号或文字，则预处理模块12将第一类实体文本的位置不变，第一类实体文本的位置依然是P(Start,End)。

如果第一类实体文本的后一个文本不是逗号、句号或文字，则预处理模块12将第一类实体文本的位置向后扩大一个文本位，即第一类实体文本的位置更新为P(Start,End-1)。

预处理模块12重新记录第一类实体文本位置，更新第一类实体文本位置集合List为List’。之后预处理模块12根据更新的第一类实体文本位置集合List’，删除语料数据中的第一实体文本，生成待去重语料数据。然后预处理模块12输入待去重语料数据至去重模型，生成预处理语料数据。然后预处理模块12输入预处理语料数据至去停用句模型，删除所述预处理语料数据中的停用句，生成新的预处理语料数据。

接下来分句模块13对所述新的预处理语料数据的文本内容进行分词，生成由若干分词单元组成的若干句子集合。再由计算模块14计算若干句子集合中各句子与模板句的语义相似度，选取语义相似度超过第一判断阈值的句子，记为关键句。最后识别模块15识别关键句中的关键词组，确定文本类型。

本申请实施例所提供的文本类型识别装置100，通过识别语料数据中的关键句、关键词，从而确定文本类型。并且通过去除语料数据中的无效信息，避免了无效信息被误判为关键信息，从而提高了文本类型识别的准确度。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本类型识别方法，其特征在于，包括以下步骤：

获取语料数据；

去除所述语料数据中的无效信息，生成预处理语料数据；

识别关键句中的关键词组，确定文本类型；

去除所述语料数据中的无效信息，生成预处理语料数据，具体包括：

输入待去重语料数据至去重模型，生成预处理语料数据；

2.如权利要求1所述的文本类型识别方法，其特征在于，所述去重模型的训练过程包括：

获取第一待去重语料数据；

记录第一待去重语料数据，生成参考数据集合；

获取第二待去重语料数据；

记录第二待去重语料数据，更新参考数据集合；

获取第三待去重语料数据，更新参考数据集合；

3.如权利要求1所述的文本类型识别方法，其特征在于，扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体包括：

判断第一类实体文本的前一个文本是否为预设符号；

4.如权利要求1所述的文本类型识别方法，其特征在于，扫描所述第一类实体文本的前后文本，以预设判断方案，重新记录第一类实体文本位置，更新第一类实体文本位置集合，具体包括：

判断第一类实体文本的后一个文本是否为预设符号；

5.如权利要求1所述的文本类型识别方法，其特征在于，去除所述语料数据中的无效信息，生成预处理语料数据，具体还包括：

统一设定所述语料数据编码方式；

识别统一编码后语料数据中的第一类实体文本，并记录第一类实体文本在所述语料数据中的位置，生成第一类实体文本位置集合。

6.如权利要求1所述的文本类型识别方法，其特征在于，去除所述语料数据中的无效信息，生成预处理语料数据，具体还包括：

7.如权利要求6所述的文本类型识别方法，其特征在于，所述去停用句模型的训练过程包括：

获取若干预处理语料数据；

记录包含第二类实体文本句的预处理语料数据数量；

8.一种文本类型识别装置，其特征在于，包括：

获取模块，用于获取语料数据；

识别模块，用于识别关键句中的关键词组，确定文本类型；

所述预处理模块用于去除所述语料数据中的无效信息，生成预处理语料数据，具体用于：

输入待去重语料数据至去重模型，生成预处理语料数据；