CN111400445B

CN111400445B - 一种基于相似文本的案件繁简分流方法

Info

Publication number: CN111400445B
Application number: CN202010160701.7A
Authority: CN
Inventors: 张建悦; 张吉豫; 邓矜婷; 熊丙万
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-09-19
Anticipated expiration: 2040-03-10
Also published as: CN111400445A

Abstract

本发明涉及一种基于相似文本的案件繁简分流方法，包括如下步骤：1)建立数据库，并在数据库中储存样本案件的文本信息；2)获取待分流案件的文本信息，并与数据库中的各样本案件进行相似度分析，得到待分流案件的相似度比例值；3)根据得到的相似度比例值以及预设的相似度比例阈值，对待分流案件进行分流。本发明提供的基于相似文本的案件繁简分流方法，解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点，可以广泛应用于案件分流领域。

Description

一种基于相似文本的案件繁简分流方法

技术领域

本发明涉及数据处理分流领域，具体涉及一种基于相似文本的案件繁简分流方法。

背景技术

随着我国经济社会的快速发展，同时受人口基数的影响，全国各级法院面临的审判工作压力越来越严重，“案多人少”的矛盾将持续加剧。通常，一个案件应当由三位法官组成合议庭进行审理，根据三位法官各自的意见，按照少数服从多数的原则决定最终的判决结果，以此来保证判决结果的正确性。为了缓解“案多人少”的现实状况，尽可能保证所有案件都能得到及时的处理，我国法律规定了由一位法官独自审理的案件审理程序，即“简易程序”。这是一种效率至上、兼顾公平的方法，它的逻辑是，如果一个案件的事实清楚简单，那么没有必要投入三位法官进行审理，因为这三位法官的意见极有可能完全一致，没有差别。简易程序的出现有效缓解了“案多人少”的矛盾，但对于什么样的案件应当使用简易程序、什么样的案件应当使用普通程序，以及如何从大量的新收案件中区分这两类案件，目前都存在问题和困难。

通常将应当使用简易程序的案件称为“简案”，应当使用普通程序的案件称为“繁案”，因此，“繁案”不一定是案情复杂、重大的案件，它只是作为“简案”的对称，也包括一些案情比较普通、但达不到使用简易程序的标准的案件。

案件繁简分流目前存在一些问题和困难。传统的案件繁简分流方法采用人工识别的方式，由立案庭法官根据经验推断，很难保证科学性。其次，案件的繁简本质上不是两个类别，而是一个尺度。也就是说，繁简应当是一个程度，需要以科学的方式进行量化，而不是直接贴上繁、简的标签。如何对案件的繁简程度进行量化，目前没有合理的方法。最后，现实中需要繁简分流的案件越来越多，繁简分流的最终目的是减轻法官的工作负担，但是如果把繁简分流也交给法官来做，那么繁简分流本身也将成为一项工作负担，再实行繁简分流则毫无意义。这些问题和困难制约着繁简分流的现实落地。

发明内容

针对上述问题，本发明的目的是提供一种基于相似文本的案件繁简分流方法，旨在解决案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点。

为实现上述目的，本发明采取以下技术方案：一种基于相似文本的案件繁简分流方法，其包括以下步骤：1)建立数据库，并在数据库中储存样本案件的文本信息；2)获取待分流案件的文本信息，并与数据库中的各样本案件进行相似度分析，得到待分流案件的相似度比例值；3)根据得到的相似度比例值以及预设的相似度比例阈值，对待分流案件进行繁简分流。

进一步的，所述步骤2)中，获取待分流案件的文本信息，并与数据库中的各样本案件进行相似度分析，得到待分流案件的相似度比例值的方法，包括以下步骤：2.1)获取待分流案件的文本信息，并与数据库中的任一样本案件进行比较，计算待分流案件与该样本案件的文本相似度；2.2)设定相似度阈值，若待分流案件与该样本案件的文本相似度不小于相似度阈值，则认为该样本案件为待分流案件的相似文本案件；2.3)重复步骤2.1)～2.2)，判断数据库中所有样本案件是否为待分流案件的相似文本案件，得到所有样本案件中的相似文本案件的数量；2.4)计算相似文本案件在所有样本案件中所占的比例，作为待分流案件的相似度比例值。

进一步的，所述步骤2.1)中，获取待分流案件的文本信息，并与数据库中的任一样本案件进行比较，计算待分流案件与该样本案件的文本相似度的方法，包括以下步骤：2.1.1)建立文本相似度计算模型，所述文本相似度计算模型包括嵌入层、长短期记忆神经网络层、卷积神经网络层、额外特征层和输出层；2.1.2)将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间，得到待分流案件和样本案件的文本特征矩阵，并输出到长短期记忆神经网络层和卷积神经网络层；2.1.3)在长短期记忆神经网络层中分别提取待分流案件与样本案件的第一文本特征信息，同时在卷积神经网络层中分别提取待分流案件与样本案件的第二文本特征信息，将长短期记忆神经网络层与卷积神经网络层中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层；2.1.4)在额外特征层中，分别根据待分流案件和样本文件的第一文本特征信息和第二文本特征信息得到二者的总的文本特征信息，根据二者的总的文本特征信息，计算得到待分流案件和样本文件的法律重叠词分数和法律要素对比向量；2.1.5)在输出层中，综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量，以计算待分流案件与样本案件的文本相似度。

进一步的，所述步骤2.1.2)中，将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间，得到待分流案件和样本案件的文本特征矩阵的方法，包括以下步骤：首先，去掉待分流案件和样本案件中对后续处理可能造成干扰的字符；其次，根据预设的文本向量维度阈值，对去除干扰后的待分流案件和样本案件进行处理，使得待分流案件和样本案件的向量维度统一；最后，使用Google中的Word2vec模型和相应的参数，将待分流案件和样本案件映射成数值矩阵，作为待分流案件和样本案件的文本特征矩阵。

进一步的，所述步骤2.1.4)中，获取待分流案件和样本文件的总的特征向量信息、法律重叠词分数和法律要素对比向量的方法为：首先，将长短期记忆神经网络层与卷积神经网络层的输出结果拼接到一起，得到待分流案件和样本文件的总的特征向量，即文本特征信息；然后，基于待分流案件和样本文件的文本特征信息，利用法律语言库，得到二者的法律重叠词分数；最后，根据法律文本的描述，按照法律上的规则提取相应的事实要素，比较待分流案件和样本文件描述的事实要素是否相同，形成一个0-1向量，作为法律要素对比向量。

进一步的，所述基于待分流案件和样本文件的文本特征信息，利用法律语言库，得到二者的法律重叠词分数的方法，包括以下步骤：首先，根据待分流案件与样本案件的文本特征信息，获得二者的文本特征信息中的重叠词；其次，根据法律语言库，去除重叠词中不在法律语言库中的部分，得到的法律重叠词；最后，计算法律重叠词占二者的文本特征信息中的总词数的比例，该比例即为法律重叠词分数。

进一步的，所述步骤2.2)中，所述相似度阈值为0.5。

进一步的，所述步骤3)中，根据得到的相似度比例值以及预设的相似度比例阈值，对待分流案件进行分流的方法为：设定相似度比例阈值，若所有样本案件中的相似文本案件所占的比例不小于相似度比例阈值，则将待分流案件分为简案，否则将待分流案件分为繁案。

进一步的，所述步骤3)中，所述相似度比例阈值为0.08。

本发明由于采取以上技术方案，其具有以下优点：1、本发明提供的基于相似文本的案件繁简分流方法，解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点，为利用信息技术解决案多人少的社会问题提供了解决方案。通过该方法分流得到的简案，能够保证其案件情况与较多的现有案件类似，从而方便于法官单人进行审理，而不易出现错判的情况；有利于在减轻法官负担的情况下尽可能地维持判决公平。2、本发明建立的文本相似度计算模型中，通过在额外特征层设置法律语言库，计算得到待分流案件和样本案件的法律重叠词分数以及法律要素比对向量，模拟了法官在判断相似案件时的思维过程，贴近了司法实务，保证了对于法律案件进行繁简分流的准确性。3、本发明中相似度阈值和相似度比例阈值均可以根据实际需要进行设置，便于根据实际法院的工作负担状况进行调整，更具有灵活性。因此，本发明可以广泛应用于法律案件的分流中。

附图说明

图1为本发明提供的基于相似文本的案件繁简分流方法的流程图；

图2为本发明实施例提供的文本相似度计算模型的示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

通过对现有案件中的繁案与简案的分流情况进行分析可发现，繁案之间的案件事实差别很大，而简案之间的案件事实往往十分类似，会大量、反复地在现实中发生。比如，对于所有的盗窃罪案件而言，几乎所有的简案事实都是盗窃钱包、手机等物品，而繁案的事实则更具戏剧性、多样性，比如盗窃电缆、医疗设备等等，彼此之间的案件事实差别很大。由此，能够得出如下结论，也即上述方法能够实现案件繁简分流的原理：简案必为大量、重复发生的案件，因此简案与简案之间的文本相似度通常较高；而繁案与繁案之间，繁案与简案之间的文本相似度通常较低。本发明正是在此基础上，通过文本相似度来对案件繁简进行分流。

参照图1，为本发明提供的基于相似文本的案件繁简分流方法的流程图，该方法包括以下步骤；

1)建立数据库，并在数据库中储存大量样本案件的文本信息；

2)获取待分流案件的文本信息，并与数据库中的各样本案件进行相似度分析，得到待分流案件的相似度比例值；

3)根据得到的相似度比例值以及预设的相似度比例阈值，对待分流案件进行繁简分流。

优选地，上述步骤1)中，在计算机中建立数据库后，在数据库中储存大量样本案件的文本信息时，文本信息为描述案件事实的文本，选择样本案件的原则为：样本案件以近期案件为宜，数量应足够多，如2万件以上，样本案件文本可从中国裁判文书网(http://wenshu.court.gov.cn/)获取，并去除其中重复、空白、混淆的文本。

优选地，上述步骤2)中，获取待分流案件的文本信息，并与数据库中的各样本案件进行相似度分析，得到待分流案件的相似度比例值的方法，包括以下步骤：

2.1)获取待分流案件的文本信息，并与数据库中的任一样本案件进行比较，计算得到待分流案件与该样本案件的文本相似度；

2.2)设定相似度阈值，若待分流案件与该样本案件的文本相似度不小于相似度阈值，则认为该样本案件为待分流案件的相似文本案件；

2.3)重复步骤2.1)～2.2)，判断数据库中所有样本案件是否为待分流案件的相似文本案件，得到数据库中所有样本案件中的相似文本案件的数量；

2.4)计算相似文本案件在所有样本案件中所占的比例，作为待分流案件的相似度比例值。

优选地，上述步骤2.1)中，计算待分流案件与任一样本案件的文本相似度时，包括以下步骤：

2.1.1)建立文本相似度计算模型；

2.1.2)基于建立的文本相似度计算模型分别提取待分流案件与该样本案件的文本特征信息，并基于提取的文本特征信息，计算待分流案件与该样本案件的文本相似度。

优选地，文本相似度计算模型包括嵌入层1、长短期记忆神经网络层(LSTM层)2、卷积神经网络层(CNN层)3、额外特征层4和输出层5。

具体地，嵌入层1即Embedding层，负责对输入文本进行预处理，并提取输入文本的文本特征矩阵，文本预处理是将输入文本规范化的过程。具体的，包括以下步骤：首先，去掉输入文本中对后续处理可能造成干扰的字符，比如特殊的标点符号、不可见字符、乱码等；其次，根据预设的文本向量维度阈值，对去除干扰后的输入文本进行处理，使得输入文本的向量维度保持统一，同时避免维度过短或者过长，例如，分别设最大单词数量和最小单词数量分别为n和q，若输入文本的长度大于最大单词数据n，则将输入文本中超出最大数量n的部分直接舍去，若输入文本的长度小于最小单词数量q，则重复该输入文本到统一长度；最后，使用Google已有的Word2vec模型和相应的参数，将输入文本映射成数值矩阵，作为输入文本的文本特征矩阵输出到LSTM层2和CNN层3。

LSTM层2使用一个记忆单元存储信息，同时，利用三种门结构在训练过程中的比例关系，来实现长距离条件下的单词间依赖关系的记忆功能。本层直接引用已有的LSTM模型和对应参数，根据输入文本的文本特征矩阵，得到输入文本的特征向量，将其作为输入文本的第一文本特征信息，输出到额外特征层4。

CNN层3使用经典的三层结构，其输入为嵌入层1输出的文本特征矩阵，该文本特征矩阵的每一行代表一个单词向量，因此，卷积核在文本特征矩阵上以行为单位进行移动，每次处理一个单词向量。具体包括以下步骤：第一，定义一个卷积核，其步长设为S；第二，设定非线性激活函数，记为F，本发明中使用Sigmoid函数；第三，依次提取S个相邻单词的局部特征C，并将卷积核每次处理得到的局部特征C存入一个集合W；第四，依据1-max pooling的池化方式，从集合W中计算出最具代表性的特征C，作为输入文本的第二文本特征信息，并输出至额外特征层4。

额外特征层4中，是先将LSTM层2和CNN层3的输出结果拼接到一起，得到输入文本的总的特征向量(即文本特征信息)；然后，利用法律语言库，在额外特征层4得到法律重叠词分数和法律要素比对向量。本实施例中，该法律语言库涉及民、刑、行政等多个部门法领域，共计1300多个词汇。

法律重叠词分数的计算方法为：根据待分流案件与样本案件的文本特征信息，获得二者的文本特征信息中的重叠词；根据法律语言库，去除重叠词中不在法律语言库中的部分，得到的法律重叠词；计算法律重叠词占二者的文本特征信息中的总词数的比例，将该比例称为法律重叠词分数。具体的，定义关于待分流案件的一个集合A，集合A中的元素为待分流案件文本里包含的全部法律专用词。同样的，定义关于样本案件文本的集合B。那么，法律重叠词分数为A∩B/(|A|+|B|)，其中|A|为集合A内的元素个数。

法律要素比对向量，是指根据法律文本的描述，按照法律上的规则提取相应的事实要素，比较两个输入文本描述的事实要素是否相同，形成一个0-1向量。该向量的形成过程模拟了法官在判断相似案件时的思维过程，贴近了司法实务，对判定法律文本的相似性具有重要的指导意义。

输出层5中，主要用于设计预测函数，以输出最终的相似度计算结果。预测函数的输入是一个拼接的向量，该向量把作为对比的两个文本的总的特征向量，法律重叠词分数K及法律要素比对向量P拼接到一起，并通过softmax分类器来预测最终的相似度结果。

优选地，上述步骤2.1.2)中，利用该文本相似度计算模型进行文本相似度计算时，具体包括如下步骤：

①将待分流案件与该样本案件的文本信息分别映射到嵌入层1的高维向量空间，对二者文本信息进行预处理，再提取二者的文本特征矩阵，将二者的文本特征矩阵同时输出到长短期记忆神经网络层2和卷积神经网络层3；

②在长短期记忆神经网络层2中分别提取待分流案件与样本案件的第一文本特征信息，同时在卷积神经网络层3中分别提取待分流案件与样本案件的第二文本特征信息，将长短期记忆神经网络层2与卷积神经网络层3中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层4；

③在额外特征层4中，将待分流案件的第一文本特征信息与第二文本特征信息拼接，并将样本案件的第一文本特征信息与第二文本特征信息拼接，分别得到待分流案件的文本特征信息与样本案件的文本特征信息；额外特征层4中储存有法律语言库，以在额外特征层中得到法律重叠词分数，并在额外特征层4中得到法律要素对比向量；

④在输出层5中，综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量，以计算待分流案件与样本案件的文本相似度。

优选地，步骤2.2)中，相似度阈值是以相似度为依据，划分案件事实相似和不相似的一个界限，这个界限应当有一个最佳值，其具体设定值与文本相似度的计算方法有关，且需要反复实验才能确定；在一个具体实施例中，相似度阈值设定为0.5。

优选地，步骤3)中，相似度比例阈值与相似度阈值的含义是完全不同的，也可以根据实际需要确定。相似度比例阈值是以相似文本案件所占的比例为依据，划分案件繁简类别的一个界限，例如，根据统计，近期使用了简易程序进行审理的案件占总案件的比例约为8％，储存了大量样本案件的数据库中的简案比例也约为8％，则相似度比例阈值优选设定为0.08，表示若待分流案件与数据库中至少8％的样本案件的文本相似度较高，则分为简案，否则分为繁案；另外，相似度比例阈值也可根据实际法院的工作负担状况进行调整，以将新案中合适比例的案件分为简案。

综上，本发明提供的基于相似文本的案件繁简分流方法，解决了案件繁简分流中存在的繁简程度无法量化、繁简划分标准不固定、繁简分类无法适应现实需要等难点，为利用信息技术解决案多人少的社会问题提供了解决方案。且在计算文本相似度时，结合了LSTM、CNN各自的特点，并引入了法律上的判断逻辑，使文本相似度的计算更加科学、准确，进而使得案件的繁简分流更加科学、准确。通过该方法分流得到的简案，能够保证其案件情况与较多的现有案件类似，从而方便于法官单人进行审理，而不易出现错判的情况；有利于在减轻法官负担的情况下尽可能地维持判决公平。

以上给出一种具体的实施方式，但本发明不局限于所描述的实施方式。本发明的基本思路在于上述方案，对本领域普通技术人员而言，根据本发明的教导，设计出各种变形的模型、公式、参数并不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行的变化、修改、替换和变形仍落入本发明的保护范围内。

Claims

1.一种基于相似文本的案件繁简分流方法，其特征在于，包括以下步骤；

1)建立数据库，并在数据库中储存样本案件的文本信息；

3)根据得到的相似度比例值以及预设的相似度比例阈值，对待分流案件进行繁简分流；

所述步骤2)中，获取待分流案件的文本信息，并与数据库中的各样本案件进行相似度分析，得到待分流案件的相似度比例值的方法，包括以下步骤：

2.1)获取待分流案件的文本信息，并与数据库中的任一样本案件进行比较，计算待分流案件与该样本案件的文本相似度；

2.3)重复步骤2.1)～2.2)，判断数据库中所有样本案件是否为待分流案件的相似文本案件，得到所有样本案件中的相似文本案件的数量；

2.4)计算相似文本案件在所有样本案件中所占的比例，作为待分流案件的相似度比例值；

所述步骤2.1)中，获取待分流案件的文本信息，并与数据库中的任一样本案件进行比较，计算待分流案件与该样本案件的文本相似度的方法，包括以下步骤：

2.1.1)建立文本相似度计算模型，所述文本相似度计算模型包括嵌入层、长短期记忆神经网络层、卷积神经网络层、额外特征层和输出层；

2.1.2)将待分流案件与该样本案件的文本信息分别映射到嵌入层，得到待分流案件和样本案件的文本特征矩阵，并输出到长短期记忆神经网络层和卷积神经网络层；

2.1.3)在长短期记忆神经网络层中分别提取待分流案件与样本案件的第一文本特征信息，同时在卷积神经网络层中分别提取待分流案件与样本案件的第二文本特征信息，并将长短期记忆神经网络层与卷积神经网络层中提取得到的第一文本特征信息和第二文本特征信息均输出到额外特征层；

2.1.4)在额外特征层中，分别根据待分流案件和样本文件的第一文本特征信息和第二文本特征信息得到二者的总的文本特征信息，根据二者的总的文本特征信息，计算得到待分流案件和样本文件的法律重叠词分数和法律要素对比向量；

2.1.5)在输出层中，综合考虑待分流案件的文本特征信息、样本案件的文本特征信息、法律重叠词分数及法律要素对比向量，计算得到待分流案件与样本案件的文本相似度；

所述步骤2.1.2)中，将待分流案件与该样本案件的文本信息分别映射到嵌入层的高维向量空间，得到待分流案件和样本案件的文本特征矩阵的方法，包括以下步骤：

首先，去掉待分流案件和样本案件中对后续处理可能造成干扰的字符；

其次，根据预设的文本向量维度阈值，对去除干扰后的待分流案件和样本案件进行处理，使得待分流案件和样本案件的向量维度统一；

最后，使用Google中的Word2vec模型和相应的参数，将待分流案件和样本案件映射成数值矩阵，作为待分流案件和样本案件的文本特征矩阵；

所述步骤2.1.4)中，获取待分流案件和样本文件的总的特征向量信息、法律重叠词分数和法律要素对比向量的方法为：

首先，将长短期记忆神经网络层与卷积神经网络层的输出结果拼接到一起，得到待分流案件和样本文件的总的特征向量，即文本特征信息；

然后，基于待分流案件和样本文件的文本特征信息，利用法律语言库，得到二者的法律重叠词分数；

最后，根据法律文本的描述，按照法律上的规则提取相应的事实要素，比较待分流案件和样本文件描述的事实要素是否相同，形成一个0-1向量，作为法律要素对比向量；

所述基于待分流案件和样本文件的文本特征信息，利用法律语言库，得到二者的法律重叠词分数的方法，包括以下步骤：

首先，根据待分流案件与样本案件的文本特征信息，获得二者的文本特征信息中的重叠词；

其次，根据法律语言库，去除重叠词中不在法律语言库中的部分，得到的法律重叠词；

最后，计算法律重叠词占二者的文本特征信息中的总词数的比例，该比例即为法律重叠词分数。

2.如权利要求1所述的一种基于相似文本的案件繁简分流方法，其特征在于，所述步骤2.2)中，所述相似度阈值为0.5。

3.如权利要求1所述的一种基于相似文本的案件繁简分流方法，其特征在于，所述步骤3)中，根据得到的相似度比例值以及预设的相似度比例阈值，对待分流案件进行分流的方法为：

设定相似度比例阈值，若所有样本案件中的相似文本案件所占的比例不小于相似度比例阈值，则将待分流案件分为简案，否则将待分流案件分为繁案。

4.如权利要求1所述的一种基于相似文本的案件繁简分流方法，其特征在于，所述步骤3)中，所述相似度比例阈值为0.08。