CN111475626A

CN111475626A - 裁判文书结构化分块方法及装置

Info

Publication number: CN111475626A
Application number: CN202010571086.9A
Authority: CN
Inventors: 顾凌云; 陈波; 王健健
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-07-31

Abstract

本发明提供的裁判文书结构化分块方法及装置，涉及数据挖掘与数据分析技术领域。首先，对清洗后的待处理裁决文书的段落进行简化处理；接着，将简化后的段落输入层次化序列标注模型中进行计算；最后，将层次化序列标注模型输出概率最大的标签作为块标签。在上述方案中，采用层次化的序列标注模型，可以捕获到裁判文书段落与段落之间的语义信息，也可以捕获段落本身的语义特征，如此通过语义的角度进行段落分块处理，可以提高裁判文书的分块效果。采用简化后的段落可以减小模型计算的开销提高处理效率。同时，本方案不需要人工过多参与，开发简单、维护成本低。基于语义特征的分块处理还能准确识别新增裁判文书的结构分块，具有较好的扩展性。

Description

裁判文书结构化分块方法及装置

技术领域

本发明涉及数据挖掘与数据分析技术领域，具体而言，涉及一种裁判文书结构化分块方法及装置。

背景技术

裁判文书作为网上公开的司法数据，对于律师、金融、政府等各个行业的数据分析和信息挖掘非常的重要。但是，裁判文书文档一般都很长，对于用户阅读和信息定位十分的不便。因此对裁判文书进行结构化处理，将内容结构化分块，可以便于裁判文书数据的挖掘和分析，也便于律师和法官等相关用户进行阅读和分析。

现有的裁判文书结构化处理大多数采用正则表达式的方式，由于裁判文书数据海量、表述多样性，需要开发众多的正则表达式，同时也可能会面临现有的正则表达式无法处理逐年新增裁判文书的结构化。利用正则表达式进行裁判文书结构化处理的另一个问题在于，由于大量正则表达式同时存在，需要人工排序正则表达式的适用顺序，排除不同正则表达式之间的冲突，这使得分段结果的准确率严重依赖于人工操作。综上所述，目前裁判文书的结构化处理存在开发麻烦、维护成本高、可扩展性不好的技术缺陷。

发明内容

为了改善上述问题，本发明提供了一种裁判文书结构化分块方法及装置。

本发明的第一方面，提供一种裁判文书结构化分块方法，应用于计算机设备，所述方法包括：

对待处理裁判文书进行清洗，其中，所述待处理裁判文书包括判决书、裁定书、调解书及决定书；

对清洗后的待处理裁判文书的段落进行简化处理，得到简化后的段落，其中，所述简化后的段落包括段落首部文本、段落尾部文本及段落中部文本的关键字；

将所述简化后的段落输入优化后的层次化序列标注模型进行计算，得到所述简化后的段落对应各个预设块标签的概率值；其中，所述层次化序列标注模型包括输入层、嵌入层、前向长短期记忆网络、后向长短期记忆网络及输出层；所述输入层对所述简化后的段落进行字向量训练，并将训练得到的字向量输入到所述嵌入层；所述前向长短期记忆网络按照语言序列从前往后对输入到所述嵌入层的字向量进行递归训练；所述后向长短期记忆网络按照语言序列从后往前对所述嵌入层的字向量进行递归训练；所述输出层基于所述前向长短期记忆网络及所述后向长短期记忆网络的递归训练结果输出所述简化后的段落对应各个预设块标签的概率值；

将概率值最大的预设块标签作为所述待处理裁判文书的块标签，得到所述待处理裁判文书的分块标签。

进一步地，所述对清洗后的待处理裁判文书的段落进行简化处理，得到简化后的段落的步骤包括：

获取清洗后的待处理裁判文书的段落首部文本和段落尾部文本；

对清洗后的待处理裁判文本的段落中部文本进行关键字识别，提取出所述段落中部文本中的关键字；

将所述段落首部文本、段落尾部文本及提取出的关键字进行拼接，得到简化后的段落。

进一步地，所述方法还包括训练层次化序列标注模型的步骤，该步骤包括：

获取标注数据中的训练集，其中，所述训练集包括已经标注块标签的训练段落；

将所述训练段落输入到所述层次化序列标注模型中进行训练，得到所述层次化序列标注模型的损失函数值，将该损失函数值与设定的损失函数阈值进行比较，在该损失函数值不小于所述设定的损失函数阈值时，调整所述层次化序列标注模型的参数，重复上述步骤，直到所述层次化序列标注模型的损失函数值小于所述设定的损失函数阈值，得到训练好的层次化序列标注模型。

进一步地，所述方法还包括对训练好的层次化序列标注模型进行优化的步骤，该步骤包括：

获取标注数据中的测试集，其中，所述测试集包括已经标注标签的测试段落；

将所述测试段落输入到所述训练好的层次化序列标注模型进行测试，根据所述训练好的层次化序列标注模型输出的块标签以及该测试段落已标注的块标签，计算所述训练好的层次化序列标注模型的平衡F分数；

调整所述训练好的层次化序列标注模型的参数，重复上述步骤，找到所述训练好的层次化序列标注模型在不同参数下的平衡F分数；

将平衡F分数最优时对应的层次化序列标注模型，作为所述优化后的层次化序列标注模型。

进一步地，所述方法还包括获取标注数据的步骤，该步骤包括：

从网络中爬取预设数量的裁判文书；

对所述爬取的裁判文书进行清洗，构建裁判文书语料库；

对所述裁判文书语料库中的段落进行分块，并对各个分块进行标签标注，得到标注数据，其中所述标注数据按照预设比例分为测试集和训练集。

本发明的第二方面，提供了一种裁判文书结构化分块装置，应用于计算机设备，所述装置包括：

清洗模块，用于对待处理裁判文书进行清洗，其中，所述待处理裁判文书包括判决书、裁定书、调解书及决定书；

简化模块，用于对清洗后的待处理裁判文书的段落进行简化处理，得到简化后的段落，其中，所述简化后的段落包括段落首部文本、段落尾部文本及段落中部文本的关键字；

计算模块，用于将所述简化后的段落输入优化后的层次化序列标注模型进行计算，得到所述简化后的段落对应各个预设块标签的概率值；其中，所述层次化序列标注模型包括输入层、嵌入层、前向长短期记忆网络、后向长短期记忆网络及输出层；所述输入层对所述简化后的段落进行字向量训练，并将训练得到的字向量输入到所述嵌入层；所述前向长短期记忆网络按照语言序列从前往后对输入到所述嵌入层的字向量递归训练；所述后向长短期记忆网络按照语言序列从后往前对输入到所述嵌入层的字向量递归训练；所述输出层基于所述前向长短期记忆网络及所述后向长短期记忆网络的递归训练结果输出所述简化后的段落对应各个预设块标签的概率值；

确定模块，用于将概率值最大的预设块标签作为所述待处理裁判文书的块标签，得到所述待处理裁判文书的分块标签。

进一步地，所述简化模块具体用于：

进一步地，所述装置还包括训练模块，所述训练模块用于：

进一步地，所述装置还包括优化模块，所述优化模块用于：

进一步地，所述装置还包括获取模块，所述获取模块用于：

从网络中爬取预设数量的裁判文书；

对所述爬取的裁判文书进行清洗，构建裁判文书语料库；

本发明提供的裁判文书结构化分块方法及装置，首先，对清洗后的待处理裁决文书的段落进行简化处理；接着，将简化后的段落输入层次化序列标注模型中进行计算；最后，将层次化序列标注模型输出概率最大的标签作为块标签。在上述方案中，采用层次化的序列标注模型，可以捕获到裁判文书段落与段落之间的语义信息，也可以捕获段落本身的语义特征，可以提高裁判文书的分块效果。采用简化后的段落可以减小模型计算的开销提高处理效率。同时，本方案不需要人工过多参与，开发简单、维护成本低。基于语义特征的分块处理还能准确识别新增裁判文书的结构分块，具有较好的扩展性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种计算机设备的结构示意图。

图2为本发明实施例所提供的一种裁判文书结构化分块方法的流程图。

图3为本发明实施例所提供的一种层次化序列标注模型的结构示意图。

图4为本发明实施例所提供的一种裁判文书结构化分块装置的模块框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，本发明中附图仅起到说明和描述的目的，并不用于限定本发明的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本发明内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，可以理解地是，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了解决背景技术所提及的技术问题，发明人创新性的提出以下技术方案。

请参照图1，图1为本发明实施例提供的一种用于实现本发明具体技术方案的计算机设备100的结构示意图。计算机设备100包括裁判文书结构化分块装置110、存储器111及处理器112。

存储器111及处理器112各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器111用于存储程序，处理器112在接收到执行指令后，执行程序。

裁判文书结构化分块装置110包括至少一个可以软件或固件的形式存储于存储器111中或固化在所述计算机设备100的操作系统中的软件功能模块。处理器112用于执行存储器111中存储的可执行模块，例如裁判文书结构化分块装置110所包括的软件功能模块及计算机程序等。

应当理解的是，图1所示的结构仅为示意，计算机设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本发明实施例提供的裁判文书结构化分块方法的流程示意图，该裁判文书结构化分块方法具体可以包括以下步骤。

步骤S210，对待处理裁判文书进行清洗。

具体地，本实例中，首先可以通过网络下载获得待处理裁判文书，其中，裁判文书包括，但不限于判决书、裁定书、调解书及决定书等。然后，可以对待处理裁判文书进行清洗除去非文书正文的内容，比如网页标签。

步骤S220，对清洗后的待处理裁决文书的段落进行简化处理，得到简化后的段落。

在本发明实施例中，简化后的段落包括段落首部文本、段落尾部文本及段落中部文本的关键字。其中，段落首部文本可以是段落的第一句文本内容或为第一个标点符号之前的文本内容。段落尾部文本可以是段落的最后一句文本内容或最后两个标点符号之间的文本内容。段落中部文本是指段落中除去段落首部文本和段落尾部文本之后，剩下的文本内容。

步骤S230，将简化后的段落输入优化后的层次化序列标注模型进行计算，得到所述简化后的段落对应各个预设块标签的概率值。

请参照图3，在本发明实施例中，层次化序列标注模型可以包括输入层、嵌入层、前向长短期记忆网络（Long Short-Term Memory，LSTM）、后向长短期记忆网络及输出层。

首先，可将简化后的段落输入输入层对简化后的段落进行字向量训练得到字向量。在本发明实施例中，可以采用word2vec模型对简化后的段落进行字向量训练，将训练得到的字向量输入到嵌入层。前向长短期记忆网络按照语言序列从前往后对输入到嵌入层的字向量进行递归训练。后向长短期记忆网络按照语言序列从后往前对嵌入层的字向量进行递归训练。输出层基于前向长短期记忆网络及所述后向长短期记忆网络的递归训练结果输出所述简化后的段落对应各个预设块标签的概率值。其中预设块标签对应为裁判文书的各个主要部分，具体地，预设块标签包括：文书首部、当事人信息、审理经过、案件基本情况、裁判依据、裁判结果及文书尾部。

步骤S240，将概率值最大的预设块标签作为所述待处理裁判文书的块标签，得到待处理裁判文书的分块标签。

上述方案，采用层次化的序列标注模型，可以捕获到裁判文书段落与段落之间的语义信息，也可以捕获段落本身的语义特征，可以提高裁判文书的分块效果。另外，采用简化后的段落可以减小模型计算的开销提高处理效率。同时，本方案不需要人工过多参与，开发简单、维护成本低；基于语义特征的分块处理还能准确识别新增裁判文书的结构分块，具有较好的扩展性。

进一步地，在本发明实施例中，步骤S220可以通过以下方式实现。

首先，获取清洗后的待处理裁判文书的段落首部文本和段落尾部文本。

接着，对清洗后的待处理裁判文本的段落中部文本进行关键字识别，提取出所述段落中部文本中的关键字。

具体地，在本发明实施例中，可以采用预先配置的裁判文书关键字词库对段落中部文本进行关键字识别，简化段落中部文本的内容。

最后，将段落首部文本、段落尾部文本及提取出的关键字进行拼接，得到简化后的段落。

由于裁判文书的主要关键信息特征在段落的首尾，所以通过上述处理可以保证既能捕获到文本的特征信息，又能缩减段落的内容减小模型计算的开销。

在本发明实施例中，裁判文书结构分块方法还可以包括获取标注数据的步骤，该步骤包括以下内容。

首先，从网络中爬取预设数量的裁判文书。

具体地，可以通过网络爬虫从各级法院、检察院或行政管理部门的官网中爬取预设数量（比如5万条）的裁判文书。

接着，对爬取的裁判文书进行清洗，构建裁判文书语料库。

具体地，具体地清洗方式和步骤S210相同。

最后，对裁判文书语料库中的段落进行分块，并对各个分块进行标签标注，得到标注数据。

在同一裁判文书中，若不同段落为同一块（比如，审理过程）可以为不同段落标注相同的块标签或可以采用BIO标注策略进行标注。

在本发明实施例中，可以将标注数据按照预设比例分为测试集和训练集，比如，80%的标注数据作为训练集，20%的标注数据作为测试集。

在本发明实施例中，裁判文书结构分块方法还可以包括训练层次化序列标注模型的步骤，具体地，该步骤包括以下内容。

首先，获取标注数据中的测试集，测试集包括具有块标签的训练段落。

接着，将训练段落输入到层次化序列标注模型中进行训练，得到层次化序列标注模型在训练过程中的损失函数值；将该损失函数值与设定的损失函数阈值进行比较判断层次化序列标注模型是否收敛；在损失函数值不小于设定的损失函数阈值时，调整层次化序列标注模型的参数，重复上述过程，直到层次化序列标注模型的损失函数值小于设定的损失函数阈值，保存当前层次化序列标注模型，得到训练好的层次化序列标注模型。

在本发明实施例中，裁判文书结构分块方法还可以对训练好的层次化序列标注模型进行优化的步骤，具体地，该步骤包括以下内容。

首先，获取标注数据中的测试集，其中，测试集包括已经标注块标签的测试段落。

接着，将测试段落输入到训练好的层次化序列标注模型进行测试，根据训练好的层次化序列标注模型输出的块标签以及该测试段落已标注的块标签，计算所述训练好的层次化序列标注模型的平衡F分数（F1-score）。

F1-score是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1-score可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。具体地，F1-score等于精确率与召回率的2倍乘积与精确率和召回率之和的比值；其中，精确率即查准率，正确预测为正的占全部预测为正的比例；召回率即查全率，即正确预测为正的占全部实际为正的比例。

再接着，调整所述训练好的层次化序列标注模型的参数，重复上述步骤，找到所述训练好的层次化序列标注模型在不同参数下的平衡F分数。

最后，将平衡F分数最优时对应的层次化序列标注模型，作为优化后的层次化序列标注模型。

上述技术方案，首先，对清洗后的待处理裁决文书的段落进行简化处理；接着，将简化后的段落输入层次化序列标注模型中进行计算；最后，将层次化序列标注模型输出概率最大的预设块标签作为块标签。在上述方案中，采用层次化的序列标注模型，可以捕获到裁判文书段落与段落之间的语义信息，也可以捕获段落本身的语义特征，如此通过语义的角度进行分块处理，可以提高裁判文书的分块效果。另外，采用简化后的段落可以减小模型计算的开销提高处理效率。其次，本方案不需要人工过多参与，开发简单、维护成本低，基于语义特征的分块处理还能准确识别新增裁判文书的结构分块，具有较好的扩展性。

在上述基础上，请结合参阅图4，为本发明实施例所提供的裁判文书结构化分块装置110的模块框图，所述裁判文书结构化分块装置110可以包括清洗模块1101、简化模块1102、计算模块1103及确定模块1104。

清洗模块1101，用于对待处理裁判文书进行清洗。

获取待处理裁判文书，具体地，可以通过网络下载获得待处理裁判文书，其中，裁判文书包括，但不限于判决书、裁定书、调解书及决定书等。清洗模块1101对待处理裁判文书进行清洗除去非文书正文的内容，比如网页标签。

简化模块1102，用于对清洗后的待处理裁判文书的段落进行简化处理，得到简化后的段落，其中，简化后的段落包括段落首部文本、段落尾部文本及段落中部文本的关键字。

在本发明实施中，段落首部文本可以是段落的第一句文本内容或为第一个标点符号之前的文本内容；段落尾部文本可以是段落的最后一句文本内容或最后两个标点符号之间的文本内容；段落中部文本是指段落中除去段落首部文本和段落尾部文本之后，剩下的文本内容。

计算模块1103，用于将简化后的段落输入优化后的层次化序列标注模型进行计算，得到简化后的段落对应各个预设块标签的概率值。

层次化序列标注模型包括输入层、嵌入层、前向长短期记忆网络（Long Short-Term Memory，LSTM）、后向长短期记忆网络及输出层。

首先，可将简化后的段落输入输入层对简化后的段落进行字向量训练得到字向量。在本发明实施例中，可以采用word2vec模型对简化后的段落进行字向量训练，将训练得到的字向量输入到嵌入层。前向长短期记忆网络按照语言序列从前往后对输入到嵌入层的字向量进行递归训练；后向长短期记忆网络按照语言序列从后往前对嵌入层的字向量进行递归训练。输出层基于前向长短期记忆网络及所述后向长短期记忆网络的递归训练结果输出所述简化后的段落对应各个预设块标签的概率值。其中预设块标签对应为裁判文书的各个主要部分，具体地，预设块标签包括：文书首部、当事人信息、审理经过、案件基本情况、裁判依据、裁判结果及文书尾部。

确定模块1104，用于将概率值最大的预设块标签作为待处理裁判文书的块标签，得到待处理裁判文书的分块标签。

进一步，简化模块1102具体用于：

对清洗后的待处理裁判文本的段落中部文本进行关键字识别，提取出段落中部文本中的关键字；

将段落首部文本、段落尾部文本及提取出的关键字进行拼接，得到简化后的段落。

请再次参照图4，裁判文书结构化分块装置110还可以包括训练模块1105，训练模块1105用于：

获取标注数据中的训练集，其中，训练集包括已经标注块标签的训练段落；

将训练段落输入到所述层次化序列标注模型中进行训练，得到层次化序列标注模型的损失函数值，将该损失函数值与设定的损失函数阈值进行比较，在该损失函数值不小于所述设定的损失函数阈值时，调整层次化序列标注模型的参数，重复上述步骤，直到层次化序列标注模型的损失函数值小于设定的损失函数阈值，得到训练好的层次化序列标注模型。

请再次参照图4，裁判文书结构化分块装置110还可以包括优化模块1106，优化模块1106用于：

获取标注数据中的测试集，其中，测试集包括已经标注块标签的测试段落；

将测试段落输入到所述训练好的层次化序列标注模型进行测试，根据训练好的层次化序列标注模型输出的块标签以及该测试段落已标注的块标签，计算训练好的层次化序列标注模型的平衡F分数；

调整训练好的层次化序列标注模型的参数，重复上述步骤，找到训练好的层次化序列标注模型在不同参数下的平衡F分数；

将平衡F分数最优时对应的层次化序列标注模型，作为优化后的层次化序列标注模型。

请再次参照图4，裁判文书结构化分块装置110还可以包括获取模块1107，获取模块1107用于：

从网络中爬取预设数量的裁判文书；

对爬取的裁判文书进行清洗，构建裁判文书语料库；

对裁判文书语料库中的段落进行分块，并对各个分块进行块标签标注，得到标注数据，其中标注数据按照预设比例分为测试集和训练集。

综上所述，在上述方案中，采用层次化的序列标注模型，可以捕获到裁判文书段落与段落之间的语义信息，也可以捕获段落本身的语义特征，如此通过语义的角度进行分块处理，可以提高裁判文书的分块效果；采用简化后的段落可以减小模型计算的开销提高处理效率。同时，本方案不需要人工过多参与，开发简单、维护成本低；基于语义特征的分块处理能准确识别新增裁判文书的结构分块，具有较好的扩展性。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种裁判文书结构化分块方法，其特征在于，应用于计算机设备，所述方法包括：

将所述简化后的段落输入优化后的层次化序列标注模型进行计算，得到所述简化后的段落对应各个预设块标签的概率值；其中，所述层次化序列标注模型包括输入层、嵌入层、前向长短期记忆网络、后向长短期记忆网络及输出层；所述输入层对所述简化后的段落进行字向量训练，并将训练得到的字向量输入到所述嵌入层；所述前向长短期记忆网络按照语言序列从前往后对输入到所述嵌入层的字向量进行递归训练；所述后向长短期记忆网络按照语言序列从后往前对输入到所述嵌入层的字向量进行递归训练；所述输出层基于所述前向长短期记忆网络及所述后向长短期记忆网络的递归训练结果输出所述简化后的段落对应各个预设块标签的概率值；

将概率值最大的预设块标签作为所述简化后的段落的分块标签，得到所述待处理裁判文书中各个段落的分块标签。

2.如权利要求1所述的裁判文书结构化分块方法，其特征在于，所述对清洗后的待处理裁判文书的段落进行简化处理，得到简化后的段落的步骤包括：

3.如权利要求1所述的裁判文书结构化分块方法，其特征在于，所述方法还包括训练层次化序列标注模型的步骤，该步骤包括：

获取标注数据中的训练集，其中，所述训练集包括已经标注段落块标签的训练段落；

4.如权利要求3所述的裁判文书结构化分块方法，其特征在于，所述方法还包括对训练好的层次化序列标注模型进行优化的步骤，该步骤包括：

获取标注数据中的测试集，其中，所述测试集包括已经标注块标签的测试段落；

5.如权利要求1-4中任意一项所述的裁判文书结构化分块方法，其特征在于，所述方法还包括获取标注数据的步骤，该步骤包括：

从网络中爬取预设数量的裁判文书；

对所述爬取的裁判文书进行清洗，构建裁判文书语料库；

6.一种裁判文书结构化分块装置，其特征在于，应用于计算机设备，所述装置包括：

7.如权利要求6所述的裁判文书结构化分块装置，其特征在于，所述简化模块具体用于：

8.如权利要求6所述的裁判文书结构化分块装置，其特征在于，所述装置还包括训练模块，所述训练模块用于：

9.如权利要求8所述的裁判文书结构化分块装置，其特征在于，所述装置还包括优化模块，所述优化模块用于：

10.如权利要求6-9中任意一项所述的裁判文书结构化分块装置，其特征在于，所述装置还包括获取模块，所述获取模块用于：

从网络中爬取预设数量的裁判文书；

对所述爬取的裁判文书进行清洗，构建裁判文书语料库；