CN110750974A

CN110750974A - 一种裁判文书结构化处理方法及系统

Info

Publication number: CN110750974A
Application number: CN201910893066.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Xingyun Law Technology Co Ltd
Current assignee: Chengdu Xingyun Law Technology Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-02-04
Anticipated expiration: 2039-09-20
Also published as: CN110750974B

Abstract

本发明公开了一种裁判文书结构化处理方法及系统，所述方法包括：建立裁判文书语料库；分析裁判文书结构；标注裁判文书，将标注的裁判文书划分为训练集和验证集；构建语言模型并预训练；计算预训练语言模型的损失函数；将训练集输入预训练语言模型，输出训练集中裁判文书的向量表示；利用该向量及训练集标注数据训练预测分段模型，获得初步的预测分段模型；将验证集输入预训练语言模型，将输出的向量输入初步预测分段模型，对比输出的分段结果与裁判文书标注调整优化预测分段模型，得到最优预测分段模型；利用本发明可提升裁判文书结构化处理准确率，降低对人工核查的依赖，提升裁判文书结构化处理效率。

Description

一种裁判文书结构化处理方法及系统

技术领域

本发明涉及文本智能处理领域，具体地，涉及一种裁判文书结构化处理方法及系统。

背景技术

裁判文书是人民法院依法作出的具有法律意义的文书，包含判决书、裁定书、调解书、决定书等多种类型文书。目前，裁判文书的结构化处理主要基于裁判文书自身的段落结构，辅之以不同段落的表述特征，总结出适用于不同段落结构的正则表达式，并在此基础上泛化正则表达式的，通过正则匹配实现裁判文书结构化处理。

现有的裁判文书结构化处理方法高度依赖于正则表达式的完整性和准确性，由于海量裁判文书中表述的多样性需要持续丰富正则表达式，同时也可能会面临现有的正则表达式无法实现逐年新增裁判文书的结构化处理。利用正则表达式进行裁判文书结构化处理的另一个问题在于，由于大量正则表达式同时存在，需要人工排序正则表达式的适用顺序，排除不同正则表达式之间的冲突，这使得分段结果的准确率严重依赖于人工操作。

发明内容

为了更加高效、准确地实现裁判文书结构化处理，本发明充分考虑我国现行法律规范和司法实践，结合文书类型、审理程序、案件类型以及其他影响裁判文书结构的因素，例如是否公益诉讼、是否小额诉讼等，融合现有的正则方式与机器学习算法，能够高效准确实现对表述方式多样、段落结构复杂的裁判文书的结构化处理。

为实现上述发明目的，本发明一方面提供了一种裁判文书结构化处理方法，所述方法包括：

收集历史裁判文书，建立裁判文书语料库；

分析裁判文书结构，将裁判文书分为若干部分，每个部分对应一个标签；

将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落；

从裁判文书语料库中提取部分裁判文书，将每篇裁判文书的每个段落打上裁判文书结构标签之一，作为标注数据；

将标注数据划分为训练集和验证集；

构建语言模型，即构建一个利用词汇embedding预测单词序列的概率分布模型。普通的语言模型是指给定一个句子中前面的词，计算下一个词的条件概率。本发明中的语言模型引入两个预训练任务，任务一是双向Masked LM，双向语言模型比传统的单向语言模型更能捕捉上下文的语义信息；任务二是next sentence预测，用于捕捉段落之间的关系。预训练语言模型，包括：给定每个单词初始的向量表示，使用以上两个预测任务预训练语言模型，在语言模型训练过程中更新单词向量；

计算预训练语言模型的损失函数，我们采用计算条件概率的方法构造一个损失函数，并进行优化；

将训练集输入预训练语言模型，得到输入段落的向量表示，并基于该向量表示及输入段落的标注数据训练预测分段模型，得到初步预测分段模型；

将验证集输入预训练语言模型，得到输入段落的向量表示，将该向量表示输入初步预测分段模型，得到输入段落的初步预测分段结果；对比预测的分段结果与标注的分段结果优化初步预测分段模型，得到最优预测分段模型；

将待预测的段落x输入预训练语言模型，得到段落x的向量表示，将段落x的向量表示输入最优预测分段模型，得到段落x的分段结果。

本发明提出了一种裁判文书结构化处理方法，分析历史裁判文书结构，结构化解析裁判文书；人工标注小部分裁判文书，得到裁判文书分段的真实标签；利用机器学习方法训练得到预测分段模型，实现自动化解析裁判文书。

优选的，裁判文书的结构包括：判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。

优选的，第一预测任务是双向Masked LM，给定一个段落，随机删除段落中的一个或几个词，预测删除的词，实现双向的语言模型；

第二预测任务是next sentence预测，在预训练语言模型预时分两种情况选择两个段落，一种是选择裁判文书中顺序相连的两个段落；另一种是从所有裁判文书的段落中随机选择两个没有上下文关系的段落拼接在一起，此处的两个段落可以不属于同一篇裁判文书。使得语言模型除了做上述Masked语言模型任务外，同时预测段落关系，判断第二个段落是否为第一个段落的后续段落。

优选的，所述方法还包括：对裁判文书语料库中的每篇裁判文书，将两个段落用分隔符[SEP]隔开，起到分隔段落的目的，每个段落前设置起始符号[CLS]，[CLS]表示CLASS，即该位置的特征用于分类模型。

优选的，所述方法还包括：微调语言模型的最后一层首先将语料信息输入语言模型，转化为向量表示，然后输入隐藏层，将隐藏层的输出输入输出层，在输出层对隐藏层的输出添加激活函数。具体方法为：根据标志起始符号[CLS]生成一组特征向量，将[CLS]位置看作语料的一部分，预测该位置，计算将其分为裁判文书结构标签之一的概率，Softmax层归一化将段落分为指定裁判文书结构标签之一的概率。再添加一个输出层将[CLS]对应位置概率最大的标签值输出，最终[CLS]对应位置的输出即为这个段落的分类结果。

优选的，语言模型的损失函数为两个预测任务的损失函数之和；利用梯度下降法求损失函数的最优解，得到每个单词最终的词嵌入向量。

优选的，每个单词的最终词嵌入向量由三个向量拼接而成，包括：位置向量、单词向量和段落向量，位置向量表示单词顺序，单词向量表示普通的单词嵌入向量，段落向量表示每个段落中单词的整体向量。

另一方面，与本发明中的方法对应，本发明还提供了一种裁判文书结构化处理系统，所述系统包括：

数据收集与语料库建立单元，用于收集历史裁判文书，建立裁判文书语料库；

裁判文书结构分析单元，用于分析裁判文书结构，将裁判文书分为若干部分，每个部分对应一个标签；

裁判文书自然段分隔单元，用于将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落；

裁判文书标注单元，用于从裁判文书语料库中提取部分裁判文书，将每篇裁判文书的每个段落打上裁判文书结构标签之一，作为标注数据；

标注数据划分单元，用于将标注数据划分为训练集和验证集；

语言模型构建与预训练单元，用于构建和预训练语言模型，包括：给定每个单词初始的向量表示，使用两个预测任务训练语言模型，在语言模型训练过程中更新单词向量；

计算单元，用于计算预训练语言模型的损失函数；

初步预测分段模型获得单元，用于将训练集输入预训练语言模型，得到输入段落的向量表示，输入该向量表示及段落标注数据训练预测分段模型，得到初步预测分段模型；

最优预测分段模型获得单元，用于将验证集输入预训练语言模型，得到输入段落的向量表示，将该向量表示输入初步预测分段模型，得到输入段落的初步预测分段结果；对比预测的分段结果与标注的分段结果优化初步预测分段模型，得到最优预测分段模型；

分段结果获得单元，用于将待预测的段落x输入预训练语言模型，得到段落x的向量表示，将段落x的向量表示输入最优预测分段模型，得到段落x的分段结果。

第二预测任务是next sentence预测，在预训练语言模型时分两种情况选择两个段落，一种是选择裁判文书中顺序相连的两个段落；另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接在一起，此处的两个段落可以不属于同一篇裁判文书。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明利用机器学习算法实现裁判文书结构化处理，克服了裁判文书书写多样性的困难，实现不同结构裁判文书的精准结构化处理，提升裁判文书结构化处理准确率，降低对人工核查的依赖，提升裁判文书结构化处理效率。相对于传统的裁判文书结构化处理方法，本发明结构化处理裁判文书更快更准，为基于裁判文书结构化的信息抽取、案件检索等提供扎实的支撑。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中一种裁判文书结构化处理方法的流程示意图；

图2是本发明中一种裁判文书结构化处理系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1，本申请提供了本发明提出了一种裁判文书结构化处理方法，分析历史裁判文书结构，结构化解析裁判文书。人工标注小部分裁判文书，得到裁判文书分段的真实标签，利用机器学习方法训练得到预测分段模型，自动化解析没有标签的裁判文书。具体步骤如下：

1.收集历史裁判文书，建立裁判文书语料库。

2.分析裁判文书结构，包括判决书名称，法院名称，文书类型，案号，当事人信息，案件审理信息，原告诉称，被告辩称，第三人述称，证据，法院认定事实，法院说理部分，裁判依据，裁判结果，案件受理费，上诉法院，文书尾部以及附录共18个部分。

3.将每篇裁判文书按照自然段分隔为多个段落。

4.人工标注小部分裁判文书，将每个段落打上上述18个标签之一，作为带有真实标签的标注数据。

5.将步骤4中的标注数据按比例8：2划分为训练集和验证集。

6.对裁判文书语料库中所有的裁判文书，将两个段落用分隔符[SEP]隔开，段落前设置起始符号[CLS]。

7.预训练语言模型，首先给定每个单词初始的向量表示，使用两个新的无监督预测任务训练语言模型，在训练过程中更新单词向量。任务1是双向Masked LM，给定一个段落，随机删除段落中的一个或几个词，预测删除的词，实现双向的语言模型。随机选择语料中15％的单词，用[Mask]掩码代替原始单词，然后利用语言模型正确预测被替换的单词。执行[mask]掩码代替的单词中，只有80％被替换成[mask]标记，10％被随机替换成另外一个单词，10％不做改动。任务2是next sentence预测，在预训练语言模型时分两种情况选择两个段落，一种是选择裁判文书中真正顺序相连的两个段落；另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接在一起，此处两个段落可以不属于同一篇裁判文书。要求语言模型除了做上述的Masked语言模型任务外，同时预测段落关系，判断第二个段落是否是第一个段落的后续段落。

8.计算预训练语言模型的损失函数，这里的损失函数是步骤7中两个预训练任务的损失函数之和。利用梯度下降法求损失函数的最优解，得到每个单词最终的词嵌入向量。每个单词的最终词嵌入向量由三个向量拼接而成，分别是位置向量、单词向量和段落向量，位置向量即单词顺序，单词向量即普通的单词嵌入向量、段落向量即每个段落中单词的整体向量。

9.进入分类预测阶段，微调上述模型的最后一层，具体方法为：根据标志起始符号[CLS]生成一组特征向量，将[CLS]位置看作语料的一部分，预测该位置，计算将其分为裁判文书结构标签之一的概率，Softmax层归一化将段落分为指定裁判文书结构标签之一的概率。再添加一个输出层将[CLS]对应位置概率最大的标签值输出，最终[CLS]对应位置的输出即为这个段落的分类结果。将步骤5的训练集输入预训练语言模型，得到输入段落的向量表示，再结合输入段落的真实标签训练预测分段模型，得到初步预测分段模型。

10.将验证集输入预训练语言模型，得到对应段落的语义表示，即步骤8中的段落向量表示。将该向量表示输入初步预测分段模型，得到段落的初步预测分段结果。对比预测的分段结果与人工标注的分段结果进一步优化预测分段模型，得到最优预测分段模型。

11.将待预测的段落x输入预训练语言模型，得到段落x的语义表示，即步骤8中的段落向量表示，再输入步骤10得到的最优预测分段模型，即可得到段落x的分段结果。

请参考图2，本发明实施例还提供了一种裁判文书结构化处理系统，所述系统包括：

语言模型构建与预训练单元，用于构建语言模型并预训练，包括给定每个单词初始的向量表示，使用两个预测任务训练语言模型，在语言模型训练过程中更新单词向量，得到预训练语言模型；

计算单元，用于计算预训练语言模型的损失函数；

初步预测分段模型获得单元，用于将训练集输入预训练语言模型，得到输入段落的向量表示，并基于该向量表示及输入段落的标注数据训练预测分段模型，得到初步预测分段模型；

最优预测分段模型获得单元，用于将验证集输入预训练语言模型，得到输入段落的向量表示，将该向量表示输入初步预测分段模型，得到段落的初步预测分段结果；对比预测的分段结果与标注的分段结果优化初步的预测分段模型，得到最优预测分段模型；

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种裁判文书结构化处理方法，其特征在于，所述方法包括：

收集历史裁判文书，建立裁判文书语料库；

将标注数据划分为训练集和验证集；

构建语言模型，预训练语言模型，包括：给定每个单词初始的向量表示，使用两个预测任务训练语言模型，在语言模型训练过程中更新单词向量，得到预训练语言模型；

计算预训练语言模型的损失函数；

将训练集输入预训练语言模型，得到段落的向量表示；输入该向量表示及段落的标注数据训练预测分段模型，得到初步预测分段模型；

将验证集输入预训练语言模型，得到段落的向量表示；将该向量表示输入初步预测分段模型，得到输入段落的初步预测分段结果；对比预测的分段结果与标注的分段结果优化初步预测分段模型，得到最优预测分段模型；

2.根据权利要求1所述的一种裁判文书结构化处理方法，其特征在于，裁判文书的结构包括：判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。

3.根据权利要求1所述的一种裁判文书结构化处理方法，其特征在于：

第一预测任务是双向Masked LM，给定一个段落，随机删除段落中的一个或几个词，预测删除的词，实现双向的语言模型；

第二预测任务是next sentence预测，在预训练语言模型时分两种情况选择两个段落，一种是选择裁判文书中顺序相连的两个段落；另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接。

4.根据权利要求1所述的一种裁判文书结构化处理方法，其特征在于，所述方法还包括：对裁判文书语料库中的每篇裁判文书，将两个段落用分隔符[SEP]隔开，每个段落前设置起始符号[CLS]。

5.根据权利要求4所述的一种裁判文书结构化处理方法，其特征在于，所述方法还包括：微调语言模型的最后一层，具体方法为：根据起始符号[CLS]的标志生成一组特征向量，将[CLS]位置看作语料的一部分，预测该位置，计算将其分为裁判文书结构标签之一的概率，Softmax层归一化将段落分为指定的裁判文书结构标签之一的概率；再添加一个输出层将[CLS]对应位置概率最大的标签值输出，最终[CLS]对应位置的输出即为这个段落的分类结果。

6.根据权利要求3所述的一种裁判文书结构化处理方法，其特征在于，语言模型的损失函数为两个预测任务的损失函数之和；利用梯度下降法求损失函数的最优解，得到每个单词最终的词嵌入向量。

7.根据权利要求6所述的一种裁判文书结构化处理方法，其特征在于，每个单词最终的词嵌入向量由三个向量拼接而成，包括：位置向量、单词向量和段落向量，位置向量表示单词顺序，单词向量表示普通的单词嵌入向量，段落向量表示每个段落中单词的整体向量。

8.一种裁判文书结构化处理系统，其特征在于，所述系统包括：

裁判文书标注单元，用于从裁判文书语料库中提取部分裁判文书，对每篇裁判文书的每个段落打上裁判文书结构标签之一，作为标注数据；

语言模型构建与预训练单元，用于构建语言模型并预训练，包括：给定每个单词初始的向量表示，使用两个预测任务训练语言模型，在语言模型训练过程中更新单词向量，得到预训练语言模型；

计算单元，用于计算预训练语言模型的损失函数；

初步预测分段模型获得单元，用于将训练集输入预训练语言模型，得到输入段落的向量表示，输入该向量表示及段落的标注数据训练预测分段模型，得到初步预测分段模型；

最优预测分段模型获得单元，用于将验证集输入预训练语言模型，得到输入段落的向量表示，将该向量表示输入初步预测分段模型，得到段落的初步预测分段结果；对比预测的分段结果与标注的分段结果优化初步预测分段模型，得到最优预测分段模型；

9.根据权利要求8所述的一种裁判文书结构化处理系统，其特征在于，裁判文书的结构包括：判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。

10.根据权利要求8所述的一种裁判文书结构化处理系统，其特征在于，第一预测任务是双向Masked LM，给定一个段落，随机删除段落中的一个或几个词，预测删除的词，实现双向的语言模型；

第二预测任务是next sentence预测，在预训练语言模型时分两种情况选择两个段落，一种是选择裁判文书中顺序相连的两个段落；另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接在一起。