CN110765266A

CN110765266A - 一种裁判文书相似争议焦点合并方法及系统

Info

Publication number: CN110765266A
Application number: CN201910893064.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Xingyun Law Technology Co Ltd
Current assignee: Chengdu Xingyun Law Technology Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-02-07
Anticipated expiration: 2039-09-20
Also published as: CN110765266B

Abstract

本发明公开了一种裁判文书相似争议焦点合并方法及系统，所述方法包括：解析裁判文书结构；获得待处理争议焦点；分类争议焦点；分类待处理争议焦点并存储；对待处理的争议焦点进行分词；提取争议焦点的文本特征，将分词后的争议焦点文本转化成有语义信息的文本特征向量；对得到的文本特征向量进行聚类；基于聚类结果，获得待处理争议焦点的合并结果；本方法及系统以满足司法审判实务为落脚点，通过合并相似或相同争议焦点建立案件之间的关联，实现争议焦点维度的相似案例检索或推荐。

Description

一种裁判文书相似争议焦点合并方法及系统

技术领域

本发明涉及文本智能处理领域，具体地，涉及一种裁判文书相似争议焦点合并方法及系统。

背景技术

在民事、行政案件中，法官总结案件各方当事人核心分歧点形成案件争议焦点。由于法律规范的稳定性、社会生活的重复性等，不同地区、不同时间发生的案件，其争议焦点可能相似甚至完全相同，历史案件的争议焦点处理对后续案件的相似或相同争议焦点具有重要参考价值。现有技术中缺少相应的方法来实现案件相似争议焦点的合并。

发明内容

本发明以满足司法审判实务为落脚点，旨在通过合并相似或相同争议焦点建立案件之间的关联，实现争议焦点维度的相似案例检索或推荐。对于在办案件中某一个或几个疑难点，本发明提供了一种检索相似争议焦点的技术路径，快速精准地帮助使用者找到有相似争议焦点的在先案件，提供裁判思路、论证方法的参考。

为实现上述发明目的，本发明一方面提供了一种裁判文书相似争议焦点合并方法，所述方法包括：

步骤1：解析裁判文书的结构，选取解析后的裁判文书中的诉讼参与人信息段落、法院认定事实段落、法院说理段落在后续步骤中使用；

步骤2：利用第一正则表达式提取待处理的裁判文书法院认定事实段落和法院说理段落的争议焦点；

步骤3：利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息；

步骤4：用步骤3提取的信息替换步骤2提取的争议焦点的诉讼当事人及第三人的姓名或名称信息，得到待处理争议焦点；

步骤5：将争议焦点分为四类，总结第一至第三类争议焦点的正则表达式，获得第三正则表达式；

步骤6：利用第三正则表达式分类步骤4得到的待处理争议焦点，如果待处理争议焦点与第三正则表达式匹配成功，则待处理争议焦点为第一至第三类争议焦点中的一类；否则，待处理争议焦点为第四类争议焦点，存储分类后的争议焦点；

步骤7：对步骤6中存储的争议焦点进行分词；

步骤8：提取争议焦点的文本特征，将分词后的争议焦点文本转化成有语义信息的文本特征向量；

步骤9：对聚类步骤8得到的文本特征向量进行聚类；

步骤10：基于聚类结果，获得待处理争议焦点的合并结果。

优选的，裁判文书法院认定事实段落和法院说理段落匹配第一正则表达式，若匹配成功，则截取符合第一正则表达式的上下文作为争议焦点。

优选的，所述步骤7具体包括：总结裁判文书的停用词表；基于停用词表对步骤6存储的争议焦点做去除停用词处理，对去除停用词后的争议焦点进行分词。

优选的，步骤8采用的争议焦点文本特征提取方法为以下方式之一：采用词袋模型提取特征、采用TF-IDF提取特征、采用LSA提取特征、采用Word2Vec提取特征和采用Doc2Vec提取特征。

优选的，对聚类步骤8得到的文本特征向量进行聚类，具体包括：

步骤A：分别采用K-Means聚类法和凝聚式层次聚类法对聚类步骤8得到的文本特征向量进行聚类；

步骤B：使用V-measure准则比较两种聚类方法的结果，选择较优的一种作为最终的聚类结果，具体包括：

步骤(1)：基于标注数据集计算均一性p，即计算每个聚类簇中正确聚类的样本数占该聚类簇中的样本数的比例。如果一个聚类簇只包含一类样本，则满足均一性。计算公式为

其中k表示总的聚类数，C_i表示标注的真实结果，K_i表示根据聚类算法得到的聚类结果。

步骤(2)：基于标注数据集计算完整性r，即计算每个聚类中正确分类的样本数占该类别样本总数的比例。如果将同类别的样本归类到同一聚类簇，则满足完整性。计算公式为

步骤(3)：加权平均均一性p和完整性

选取V_measure值较大的聚类方法的聚类结果作为最终聚类结果。

优选的，使用K-Means聚类法对聚类步骤8得到的文本特征向量进行聚类，具体包括：

步骤a：首先设置K值，K表示将第四类争议焦点分为K个簇；

步骤b：从步骤8得到的文本特征向量中随机选择K个作为初始化的聚类中心，即质心；

步骤c：逐个计算所有的文本特征向量与K个质心的欧式距离，将文本特征向量分到欧式距离最近的质心所在的簇；

步骤d：计算K个簇中文本特征向量的均值作为K个簇的新质心，并计算每个簇中所有文本特征向量到质心距离的平方和RSS；

步骤e：循环步骤c和步骤d，直到聚类结果不再发生变化，得到最终的聚类结果，计算得到最终的RSS；

步骤f：对每一个指定的K，完成步骤a-e，都能够得到一个聚类结果和最终的RSS，画出RSS-K的折线图，随着K增大RSS逐渐减小，寻找折线图的拐点，拐点处对应的K值为最终选定的聚类数，保留拐点的聚类结果。

优选的，使用凝聚式层次聚类法对聚类步骤8得到的文本特征向量进行聚类，具体包括：

步骤Ⅰ：将每条争议焦点对应的文本特征向量看作一个簇；

步骤Ⅱ：使用ward距离计算簇间距离；

步骤Ⅲ：将簇间距离最小的两个簇合并为一个簇；

步骤Ⅳ：重复步骤Ⅱ和步骤Ⅲ，直到所有争议焦点合并为一个簇；

步骤Ⅴ：利用目标函数

确定簇数K的值，其中λ代表每增加一个簇时的惩罚量，目标函数包含失真率和复杂度两个要素，选取每个簇中所有文本特征向量到质心距离的平方和RSS衡量失真率，选取簇的数目K衡量模型复杂度。

步骤VI：画出K-λ变化图，寻找K-λ变化图的拐点，选取拐点对应的K值作为最终聚类的簇数，保留拐点的聚类结果。

优选的，所述方法还包括步骤11：

推定提取到的争议焦点及其分类结果为审判实务中出现过的争议焦点及正确合并结果。对此推定做如下验证：抽取一定数量的不包含“争议焦点”及类似表述的裁判文书，判断这部分裁判文书中是否包含实质意义上的争议焦点，如有，则判断该实质意义上的争议焦点是否已经被涵盖在提取的争议焦点及分类中，若抽取文书中的争议焦点均被涵盖，则认为推定结果成立。

优选的，将争议焦点分为四类：第一类是重复案由争议焦点，第二类是程序性争议焦点，第三类是法律性争议焦点，第四类是事实类争议焦点。

另一方面，与本发明中的方法对应，本发明还提供了一种裁判文书相似争议焦点合并系统，所述系统包括：

解析单元，用于解析裁判文书的结构行，获得解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落；

争议焦点提取单元，用于利用第一正则表达式提取待处理的裁判文书法院认定事实段落和法院说理段落的争议焦点；

诉讼参与人提取单元，用于利用第二正则表达式提取待处理的裁判文书诉讼参与人信息段落的诉讼当事人及第三人的姓名或名称信息；

待处理争议焦点获得单元，用于用诉讼参与人提取单元提取的信息替换争议焦点提取单元提取的争议焦点的诉讼当事人及第三人的姓名或名称信息，得到待处理争议焦点；

第三正则表达式获得单元，用于将争议焦点分为四类，总结第一至第三类争议焦点的正则表达式，获得第三正则表达式；

待处理争议焦点分类单元，用于利用第三正则表达式分类待处理争议焦点，如果待处理争议焦点与第三正则表达式匹配成功，则待处理争议焦点为第一至第三类争议焦点中的一类；否则，待处理争议焦点为第四类争议焦点，存储分类后的争议焦点；

分词单元，用于对待处理争议焦点分类单元存储的争议焦点进行分词；

特征提取单元，用于提取争议焦点的文本特征，将分词后的争议焦点文本转化成有语义信息的文本特征向量；

聚类单元，用于对聚类特征提取单元得到的文本特征向量进行聚类；

输出单元，用于基于聚类结果，获得待处理争议焦点的合并结果。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明能够实现相似或相同争议焦点的合并，对使用者而言，检索到某一争议焦点即完成相似争议焦点的检索，辅之以案情事实、裁判时间等其他维度，实现争议焦点维度的相似案件的精准推荐或检索，为复杂疑难的在办案件提供重要参考，提升审判质效，有助于将有限的司法资源发挥出最大功效。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中一种裁判文书相似争议焦点合并方法的流程示意图；

图2是本发明中一种裁判文书相似争议焦点合并系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1，本发明提出了一种裁判文书中争议焦点的合并方法，在结构化解析裁判文书的基础上，提取争议焦点、原被告信息，用“原告”、“被告”替换争议焦点的原被告姓名或名称信息，以减少噪声干扰；使用多种方法提取文本特征，将原始文本转换成含有语义信息的文本特征向量；使用多种无监督的机器学习方法对文本特征向量进行聚类，将相似的争议焦点聚为一类，实现争议焦点的合并。

步骤1：综合审理程序、文书类型、案件类型等多个维度，总结多样化的裁判文书结构化模板，实现裁判文书结构化解析，选取结构化解析后的裁判文书的“诉讼参与人信息”、“法院认定事实”、“法院说理”三个部分在后续步骤中使用。

步骤2：总结裁判文书争议焦点的范式，整理为提取争议焦点的正则表达式。提取待处理的裁判文书的争议焦点，主要方法为：在裁判文书的“法院认定事实”和“法院说理”段落匹配争议焦点正则表达式，如果匹配成功，则截取符合正则表达式的上下文作为争议焦点。

步骤3：利用正则方法抽取裁判文书“诉讼参与人信息”段落的诉讼当事人及第三人的姓名或名称信息。

步骤4：利用步骤3提取的信息替换步骤2中提取的争议焦点的诉讼当事人及第三人的姓名或名称信息，得到一般意义上的争议焦点，用于支撑争议焦点的合并。

步骤5：在不同的三级案由下将争议焦点分为四类：第一类是重复案由争议焦点，第二类是程序性争议焦点，第三类是法律性争议焦点，第四类是事实类争议焦点。总结前三类争议焦点的正则表达式。

步骤6：根据步骤5中的正则表达式，分类步骤4的争议焦点，如果匹配不成功，则推定属于第四类争议焦点。

步骤7：在不同的三级案由下，总结停用词表，便于后续使用。

步骤8：去掉步骤6保存的争议焦点的停用词，并对其进行分词。

步骤9：提取文本特征，将步骤8分词后的文本转化成有语义信息的文本特征向量。采用的特征提取方法有：词袋模型、TF-IDF、LSA、Word2Vec、Doc2Vec，根据最终结果选取效果最好的方法。

步骤10：使用K-Means聚类法对步骤9得到的文本特征向量进行聚类。具体方法是：

步骤10.1：首先设置K值，K表示将第四类争议焦点分为K个簇；

步骤10.2：从步骤9得到的有语义信息的文本特征向量中随机选择K个作为初始化的聚类中心，即质心；

步骤10.3：逐个计算所有的文本特征向量与K个质心的欧式距离，将文本特征向量分到欧式距离最近的质心所在的簇；

步骤10.4：计算K个簇中文本特征向量的均值作为这K个簇的新质心，并计算每个簇中所有文本特征向量到质心距离的平方和RSS；

步骤10.5：循环步骤10.3和步骤10.4，直到聚类结果不再发生变化，得到最终聚类结果，计算得到最终的RSS。

步骤10.6：对每一个指定的K，完成步骤10.1-10.5，都能够得到一个聚类结果和最终的RSS，画出RSS-K的折线图，随着K增大RSS逐渐减小，寻找折线图的拐点，即经过拐点之后RSS的减小变得平缓，拐点对应的K值为最终选定的聚类数，保留拐点的聚类结果。

步骤11：使用凝聚式层次聚类法对步骤9得到的文本特征向量进行聚类，具体方法是：

步骤11.1：将每条争议焦点对应的文本特征向量看作一个簇；

步骤11.2：使用ward距离计算簇间距离；

步骤11.3：将簇间距离最小的两个簇合并为一个簇；

步骤11.4：重复步骤11.2和步骤11.3，直到所有争议焦点合并为一个簇；

步骤11.5：利用目标函数

步骤11.6：画出K-λ变化图，寻找变化图的拐点，即经过拐点之后K的减小变得平缓，选取拐点对应的K值作为最终聚类的簇数，保留拐点的聚类结果。

步骤12：比较步骤10和步骤11的聚类结果，选择较好的一种作为最终聚类结果。

步骤13：推定提取到的争议焦点及其分类结果为审判实务中出现过的争议焦点及正确合并结果。对推定做如下验证：随机抽取约500份不包含形式意义上“争议焦点”的历史判决书，人工判断其是否包含实质意义上的争议焦点，如有，则判断其是否已经在归类的争议焦点，若抽取的判决书的争议焦点均被覆盖，则认为推定结果成立。通过本步骤，验证形式意义上争议焦点是否涵盖实务中所有类型的争议焦点。请参考图2，本发明实施例提供了一种裁判文书相似争议焦点合并系统，所述系统包括：

解析单元，用于结构化解析裁判文书，选取结构化解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落三个部分；

聚类单元，用于对特征提取单元得到的文本特征向量进行聚类；

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种裁判文书相似争议焦点合并方法，其特征在于，所述方法包括：

步骤1：解析裁判文书的结构，获得解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落；

步骤2：利用第一正则表达式提取待处理的裁判文书中法院认定事实段落和法院说理段落的争议焦点；

步骤6：利用第三正则表达式分类步骤4得到的待处理争议焦点，如果待处理争议焦点与第三正则表达式匹配成功时，则待处理争议焦点为第一至第三类争议焦点中的一类；否则，待处理争议焦点为第四类，存储分类后的争议焦点；

步骤7：对步骤6存储的争议焦点进行分词；

步骤9：对步骤8得到的文本特征向量进行聚类；

步骤10：基于聚类结果，获得待处理争议焦点的合并结果。

2.根据权利要求1所述的一种裁判文书相似争议焦点合并方法，其特征在于，裁判文书法院认定事实段落和法院说理段落匹配第一正则表达式，如果匹配成功则截取符合第一正则表达式的上下文作为争议焦点。

3.根据权利要求1所述的一种裁判文书相似争议焦点合并方法，其特征在于，所述步骤7具体包括：总结裁判文书的停用词表；基于停用词表，对步骤6存储的争议焦点做去除停用词处理，对去除停用词后的争议焦点进行分词。

4.根据权利要求1所述的一种裁判文书相似争议焦点合并方法，其特征在于，步骤8采用的争议焦点文本特征提取方法为以下方式之一：采用词袋模型提取特征、采用TF-IDF提取特征、采用LSA提取特征、采用Word2Vec提取特征和采用Doc2Vec提取特征。

5.根据权利要求1所述的一种裁判文书相似争议焦点合并方法，其特征在于，对步骤8得到的文本特征向量进行聚类，具体包括：

步骤A：分别采用K-Means聚类法和凝聚式层次聚类法对步骤8得到的文本特征向量进行聚类；

步骤(1)：基于标注数据集计算均一性p，即计算每个聚类簇中正确聚类的样本数占该聚类簇中的样本数的比例；如果一个聚类簇只包含一类样本，则满足均一性；计算公式为

其中k表示总的聚类数，C_i表示标注的真实结果，K_i表示根据聚类算法得到的聚类结果；

步骤(2)：基于标注数据集计算完整性r，即计算每个聚类中正确分类的样本数占该类别样本总数的比例；如果将同类别的样本归类到同一聚类簇，则满足完整性；计算公式为

步骤(3)：加权平均均一性p和完整性

6.根据权利要求5所述的一种裁判文书相似争议焦点合并方法，其特征在于，使用K-Means聚类法对步骤8得到的文本特征向量进行聚类，具体包括：

步骤a：首先设置K值，K表示将第四类争议焦点分为K个簇；

步骤b：从步骤8得到的文本特征向量中随机选择K个文本特征向量作为初始化的聚类中心，即质心；

步骤e：循环步骤c和步骤d，直到聚类结果不再发生变化，得到最终聚类结果，计算得到最终的RSS；

步骤f：对每一个指定的K，完成步骤a-e，都能够得到一个聚类结果和最终的RSS，画出RSS-K的折线图，随着K增大RSS逐渐减小，寻找折线图的拐点，拐点对应的K值为最终选定的聚类数，保留拐点的聚类结果。

7.根据权利要求5所述的一种裁判文书相似争议焦点合并方法，其特征在于，使用凝聚式层次聚类法对步骤8得到的文本特征向量进行聚类，具体包括：

步骤Ⅰ：将每条争议焦点对应的文本特征向量看作一个簇；

步骤Ⅱ：使用ward距离计算簇间距离；

步骤Ⅲ：将簇间距离最小的两个簇合并为一个簇；

步骤Ⅴ：利用目标函数

确定簇数K的值，其中λ代表每增加一个簇时的惩罚量；目标函数包含失真率和复杂度两个因素，选取每个簇中所有文本特征向量到质心距离的平方和RSS衡量失真率，选取簇的数目K衡量模型复杂度；

步骤VI：画出K-λ变化图，在K-λ变化图中寻找拐点，选取拐点对应的K值作为最终的聚类簇数，保留拐点的聚类结果。

8.根据权利要求1所述的一种裁判文书相似争议焦点合并方法，其特征在于，所述方法还包括步骤11：

推定提取到的争议焦点及其分类结果为审判实务中出现过的争议焦点及正确合并结果；对此推定做如下验证：抽取一定数量的不包含争议焦点及类似表述的裁判文书，判断这部分裁判文书中是否包含实质意义上的争议焦点，如有，则判断该争议焦点是否已经涵盖在提取的争议焦点及分类中，若抽取文书中的争议焦点均被覆盖，则认为推定结果成立。

9.根据权利要求1所述的一种裁判文书相似争议焦点合并方法，其特征在于，将争议焦点分为四类：第一类是重复案由争议焦点，第二类是程序性争议焦点，第三类是法律性争议焦点，第四类是事实类争议焦点。

10.一种裁判文书相似争议焦点合并系统，其特征在于，所述系统包括：

解析单元，用于解析裁判文书的结构，获得解析后的裁判文书的诉讼参与人信息段落、法院认定事实段落、法院说理段落；

待处理争议焦点获得单元，用于用诉讼参与人提取单元提取的信息替换争议焦点提取单元提取的争议焦点的诉讼当事人及第三人的姓名或名称，得到待处理争议焦点；