CN110825872A

CN110825872A - 一种提取和分类诉讼请求信息的方法及系统

Info

Publication number: CN110825872A
Application number: CN201910858940.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-02-21
Anticipated expiration: 2039-09-11
Also published as: CN110825872B

Abstract

本发明公开了一种提取和分类诉讼请求信息的方法及系统，包括：采集相关诉讼书，建立原始数据语料库；识别出诉讼书中诉讼请求相关的文档部分；利用正则表达式识别出诉讼请求项；分类诉讼请求，每个类别的诉讼请求对应一个类别标签；标注诉讼请求项并构建数据集，将上述数据集划分为训练集和测试集；构建神经网络模型并进行预训练获得预训练模型；利用训练集训练预训练模型获得训练后的模型；利用测试集测试训练后的模型获得最优分类模型；将待分类的诉讼请求项输入最优分类模型，输出诉讼请求项的类别标签；本方法及系统实现了诉讼书中的诉讼请求与标准诉讼请求类别的精准匹配。

Description

一种提取和分类诉讼请求信息的方法及系统

技术领域

本发明涉及自然语言智能处理领域，具体地，涉及一种提取和分类诉讼请求信息的方法及系统。

背景技术

诉讼书是当事人因自身合法权益遭受侵害而向人民法院提起诉讼请求的文书。目前，当事人向人民法院提交的诉讼书为纸质文书，扫描后以图片形式存储，诉讼书中的诉讼请求信息无法直接用于人民法院审判流程。现有方法一般采用OCR识别技术将诉讼书扫描件中的诉讼请求转换为可编辑的文字，再用于辅助人民法院后续的审判工作。

诉讼书中当事人的诉讼请求一般分为多项，现有的OCR识别技术仅能够满足一般的文字识别需求，无法区分不同项的诉讼请求。目前提取诉讼请求仍然采用全文正则匹配或者人工手动添加的方式，无法实现精准高效的匹配相应标准诉讼请求及有效分类。

发明内容

为了满足人民法院围绕诉讼请求进行审判的需要，本发明以当事人向人民法院提交的诉讼书为起点，基于OCR识别技术对诉讼书的识别结果，实现诉讼请求的识别及多项诉讼请求的分项处理。利用海量裁判文书训练预训练模型微调预训练模型，实现诉讼书中的诉讼请求与标准诉讼请求的精准匹配。

为实现上述发明目的，本发明一方面提供了一种提取和分类诉讼请求信息的方法，所述方法包括：

采集相关诉讼书，建立原始数据语料库；

利用OCR识别技术将原始数据语料库中的诉讼书图片识别成诉讼书文档，从诉讼书文档中识别出诉讼请求相关的文档部分；

拼接诉讼请求相关的文档部分中每一行内容得到诉讼请求相关的段落；

利用正则表达式识别诉讼请求相关段落中的诉讼请求项；

分析诉讼书，分类诉讼请求，每个类别的诉讼请求对应一个类别标签；

针对识别出的诉讼请求项，将其中一部分诉讼请求项分别打上上述类别标签之一并构建数据集，将上述数据集划分为训练集和测试集；

构建神经网络模型，利用若干民事裁判文书预训练神经网络模型，获得预训练模型；

将训练集输入预训练模型，预训练模型通过attention_mask对训练集做mask处理，然后利用embedding词向量层加载预训练好的词向量；将词向量归一化和dropout后，经12层双层双向transformer处理后接入线性层分类，输出模型预测的分类结果，获得训练后的模型；

利用测试集测试训练后的模型，基于测试结果调整模型参数获得最优分类模型；

将待分类的诉讼请求项输入最优分类模型，输出诉讼请求分类的类别标签。

优选的，因诉讼书中诉讼请求部分始终以“文字诉讼请求”或“请求事项”开头，以“文字事实与理由”或“事实和理由”结束，所以可以通过正则表达式提取诉讼请求相关的文档部分。针对诉讼书文档，将以“文字诉讼请求”或“请求事项”开头，以“文字事实与理由”或“事实和理由”结束的部分识别为诉讼请求相关的文档部分。

优选的，从诉讼书文档中识别出诉讼请求相关的文档部分后，拼接诉讼请求相关的文档部分之前，本方法还包括：利用语法纠错算法修正诉讼请求相关的文档部分中文字的语法错误。

优选的，利用正则表达式识别出诉讼请求相关段落中以数字“1”至“9”或以汉字“一”至“九”开头，以“句号”或“分号”结尾的字符串，并用换行符替换数字“1”至“9”或者汉字“一”至“九”，即可将诉讼请求相关段落拆分为单独的诉讼请求句子。

优选的，诉讼请求的类别包括但不限于：要求确认存在劳动关系、要求解除劳务派遣合同、要求支付劳务派遣费、要求退还保证金、要求支付拖欠工资、要求支付经济补偿金、要求解除竞业限制约定。

优选的，训练集输入预训练模型后，预训练模型通过attention_mask对训练集做mask处理前，还包括以下处理：

预训练模型根据已有字典对输入的训练样本做数据预处理，即检验训练集中的文字是否存在字典中，将单词替换成字典中的ID编号，并对每段文本长度做截长补短处理，具体为：对于长度小于预设长度的句子，在句子末端填充0，使该句子的长度等于预设长度；对于长度大于预设长度的句子，截断超出预设长度的部分，使截断后句子长度等于预设长度。模型根据字典中每个词的编号进行词嵌入得到词向量。

优选的，词向量由三部分组成：字向量、句向量和位置信息向量。

优选的，利用测试集测试训练后的模型，得到验证的准确率、召回率和F1-score，调整模型参数获得最优分类模型。

优选的，所述民事裁判文书为中国裁判文书网数据库中的民事裁判文书。

另一方面，与本发明中的方法对应，本发明还提供了一种提取和分类诉讼请求信息的系统，所述系统包括：

数据采集及语料库建立单元，用于采集相关诉讼书，建立原始数据语料库；

诉讼请求文档识别单元，用于利用OCR识别技术将原始数据语料库中的诉讼书图片识别成诉讼书文档，从诉讼书文档中识别出诉讼请求相关的文档部分；

拼接单元，用于拼接诉讼请求相关的文档部分中每一行内容得到诉讼请求相关的段落；

诉讼请求项识别单元，用于利用正则表达式识别出诉讼请求相关段落中的诉讼请求项；

诉讼请求分类单元，用于分析诉讼书，分类诉讼请求，每个类别的诉讼请求对应一个类别标签；

标注及数据集构建单元，用于针对识别出的诉讼请求项，将其中一部分诉讼请求项分别打上上述类别标签之一，并构建数据集，将上述数据集划分为训练集和测试集；

模型构建及预训练单元，用于构建神经网络模型，利用若干民事裁判文书预训练神经网络模型获得预训练模型；

预训练模型训练单元，将训练集输入预训练模型，预训练模型通过attention_mask对训练集做mask处理，然后利用embedding词向量层加载预训练好的词向量；将词向量归一化和dropout后，经12层双层双向transformer处理后接入线性层分类，获得训练后的模型；

最优分类模型获得单元，用于利用测试集测试训练后的模型，基于测试结果调整模型参数获得最优分类模型；

分类单元，用于将待分类的诉讼请求项输入最优分类模型，输出诉讼请求分类的类别标签。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明通过分项处理诉讼请求，实现诉讼请求按照不同请求事项自动分为不同项；标注分项后的诉讼请求与法律知识库整理的标准诉讼请求，利用基于海量裁判文书语料库训练的预训练模型实现诉讼请求的文本分类，从诉讼书中提取当事人的多项诉讼请求，为人民法院办理案件提供审理思路导向，围绕诉讼请求有针对性地审理案件，提高审判效率，避免遗漏审判事项。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中方法训练阶段的流程示意图；

图2是本发明中方法应用阶段的流程示意图；

图3是本发明中系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1，本申请提供了一种提取诉讼请求信息的方法，首先利用OCR识别技术识别上传至系统的诉讼书图片，再分类诉讼书中所涉及的诉讼请求部分。具体步骤如下：

1.汇总相关诉讼书，作为原始数据语料库；

2.利用OCR识别技术将图片形式的诉讼书识别成文字，利用程序读取每一行，识别出以“诉讼请求”或“请求事项”开头，以“事实与理由”或“事实和理由”结束的部分，即为诉讼书中诉讼请求相关的部分；

3.利用语法纠错算法(KenLM、RNN_CRF)修正诉讼请求相关部分中的谐音字词、语法错误、字词补全、错别字等常见语法错误；

4.由于OCR识别技术只能以段落形式识别相关文字，需要利用程序拼接诉讼请求相关部分的每一行内容，得到诉讼请求相关段落；

5.利用正则表达式识别出以数字‘1’至‘9’或‘一’至‘九’开头，以‘。’、‘.’、‘；’、‘；’结尾的字符串，并用换行符替换‘1’至‘9’或‘一’至‘九’，得到诉讼请求项；

6.根据法律相关人士梳理，最终得到63个诉讼请求类别，包括要求确认存在劳动关系、要求解除劳务派遣合同、要求支付劳务派遣费、要求退还保证金、要求支付拖欠工资、要求支付经济补偿金、要求解除竞业限制约定等；

7.将部分诉讼请求项分别人工打上上述63个标签之一，作为真实的标签，构建数据集；

8.将上述数据集按照8:2划分为训练集和测试集；

9.本发明利用中国裁判文书网上2600万份民事裁判文书预训练构建的神经网络模型，训练出基于海量裁判文书语料的预训练模型；

10.将训练集输入上述预训练模型，首先模型会根据已有字典对输入训练样本做数据预处理，即检验训练集中的文字是否存在字典中，将单词替换成字典中的ID编号，并对每段文本长度做截长补短的处理，具体为：对于长度小于预设长度的短句子，在句子末端填充0，使填充后的句子长度等于预设长度；对于长度大于预设长度的句子，截断句子长度超出预设长度的部分，使截断后的句子长度等于预设长度。

11.接下来，模型先通过attention_mask对预处理好的诉讼请求项做mask处理，然后利用embedding词向量层加载预训练好的词向量，词向量由三部分组成：字向量、句向量、位置信息向量；将叠加后的词向量归一化和dropout后，经12层双层双向transformer处理后接入线性层分类实现最终的分类效果；

12.利用测试集测试训练好的模型，得到验证的准确率、召回率和F1-score，调整模型参数得到最优分类模型；

13.实际应用时，将处理好的真实诉讼请求项输入最优分类模型，可以直接输出分类的类别标签。

请参考图1，训练阶段：1.利用语法纠错算法(KenLM、RNN_CRF)对OCR识别出的诉讼书文字部分做语法纠错，并利用正则表达式识别出诉讼请求部分。识别出诉讼请求项后，人工标注诉讼请求项，构建诉讼请求数据集；2.将诉讼请求数据集划分为训练集和测试集，将训练集输入预训练模型进行模型微调，利用测试集验证模型效果，得到最优分类模型。

请参考图2，应用阶段：首先利用OCR识别技术识别出真实诉讼书的文字，，并利用正则表达式提取诉讼请求部分并分项，将每项诉讼请求输入最优分类模型，输出每项诉讼请求的类别。

请参考图3，本发明实施例提供了一种提取和分类诉讼请求信息的系统，所述系统包括：

拼接单元，用于拼接诉讼请求相关的文档部分的每一行内容得到诉讼请求相关的段落；

诉讼请求项识别单元，利用正则表达式识别出诉讼请求相关的段落中的诉讼请求项；

诉讼请求分类单元，用于分析诉讼书行，分类诉讼请求，每个类别的诉讼请求对应一个类别标签；

预训练模型训练单元，用于将训练集输入预训练模型，预训练模型通过attention_mask对训练集做mask处理，然后利用embedding词向量层加载预训练好的词向量；将词向量归一化和dropout后，经12层双层双向transformer处理后接入线性层分类获得训练后的模型；

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提取和分类诉讼请求信息的方法，其特征在于，所述方法包括：

采集相关诉讼书，建立原始数据语料库；

利用OCR识别将原始数据语料库的诉讼书图片识别成诉讼书文档，从诉讼书文档中识别出诉讼请求相关的文档部分；

拼接诉讼请求相关的文档部分中每一行内容，得到诉讼请求相关的段落；

利用正则表达式识别出诉讼请求相关段落中的诉讼请求项；

分析诉讼书，对诉讼请求进行分类，每个类别的诉讼请求对应一个类别标签；

针对识别出的诉讼请求项，将其中一部分诉讼请求项分别打上上述类别标签之一，完成数据集构建，将上述数据集划分为训练集和测试集；

构建神经网络模型，利用若干民事裁判文书预训练神经网络模型获得预训练模型；

将训练集输入预训练模型，预训练模型通过attention_mask对训练集做mask处理，然后利用embedding词向量层加载预训练好的词向量；将词向量归一化和dropout后，经12层双层双向transformer处理后接入线性层分类获得训练后的模型；

利用测试集测试训练后的模型，基于测试结果调整模型参数获得最优模型；

将待分类的诉讼请求项输入最优模型，输出诉讼请求分类的类别标签。

2.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，识别诉讼书文档中以文字“诉讼请求”或“请求事项”开头、以文字“事实与理由”或“事实和理由”结束的文档部分为诉讼请求相关的文档部分。

3.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，从诉讼书文档中识别出诉讼请求相关的文档部分之后，拼接诉讼请求相关的文档部分之前，本方法还包括：利用语法纠错算法修正诉讼请求相关的文档部分中的文字语法错误。

4.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，利用正则表达式识别诉讼请求相关段落中以数字“1”至“9”或汉字“一”至“九”开头，以句号或分号结尾的字符串，并用换行符替换数字“1”至“9”或汉字“一”至“九”，得到诉讼请求项。

5.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，诉讼请求的类别包括但不限于：要求确认存在劳动关系、要求解除劳务派遣合同、要求支付劳务派遣费、要求退还保证金、要求支付拖欠工资、要求支付经济补偿金、要求解除竞业限制约定。

6.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，训练集输入预训练模型后，预训练模型通过attention_mask对训练集做mask处理前，还包括以下处理：

预训练模型根据已有的字典对输入训练样本做数据预处理，即检验训练集中的文字是否存在字典中，将单词替换成字典中的ID编号，并对每一段文本长度做如下处理：对于长度小于预设长度的句子，在该句子末端填充0，使填充后的句子长度等于预设长度；对于长度大于预设长度的句子，截断超出预设长度的部分，使截断后的句子长度等于预设长度。

7.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，词向量由三部分组成：字向量、句向量和位置信息向量。

8.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，利用测试集测试训练后的模型，得到验证的准确率、召回率和F1-score，调整模型参数获得最优分类模型。

9.根据权利要求1所述的一种提取和分类诉讼请求信息的方法，其特征在于，所述民事裁判文书为中国裁判文书网数据库中的民事裁判文书。

10.一种提取和分类诉讼请求信息的系统，其特征在于，所述系统包括：

诉讼请求文档识别单元，用于利用OCR识别将原始数据语料库的诉讼书图片识别成诉讼书文档，从诉讼书文档中识别出诉讼请求相关的文档部分；

拼接单元，用于拼接诉讼请求相关的文档部分中每一行内容，得到诉讼请求相关的段落；

诉讼请求项识别单元，用于利用正则表达式识别出诉讼请求相关段落中的诉讼请求项

诉讼请求分类单元，用于分析诉讼书，对诉讼请求进行分类，每个类别的诉讼请求对应一个类别标签；

标注及数据集构建单元，用于针对识别出的诉讼请求项，将其中一部分诉讼请求项分别打上类别标签之一，完成数据集构建，将上述数据集划分为训练集和测试集；