CN109840532A

CN109840532A - 一种基于k-means的法院类案推荐方法

Info

Publication number: CN109840532A
Application number: CN201711200604.0A
Authority: CN
Inventors: 陈振宇; 何铁科; 秦泽民; 廉昊; 骆斌; 李玉莹; 张欣
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-06-04

Abstract

本发明提出了一种基于k‑means的法院类案推荐方法，用于帮助法律人员快速方便地找到当前需要的进一步参考和分析的相似案例，节省查阅案例的时间，提高工作的效率。该发明的主要创新在于(1)对案例文书进行分词和关键词的提取，对关键词进行归一化处理(2)使用关键词归一化处理的结果建立新的向量模型(3)将k‑means和余弦相似度相结合，使得类案推荐结果更优。本发明最终基于k‑means开发的类案推荐，可以有效地帮助法律人员进行公证判决。

Description

一种基于k-means的法院类案推荐方法

技术领域

本发明属于计算机技术中的机器学习领域，尤其是机器学习中数据分析领域，使用敏捷开发一套web的类案推荐系统，用于帮助法律人员提供智能类案对比，以便使用者快速方便地找到当前需要的进一步参考和分析的相似案例。

背景技术

目前在我国，案例文书主要是由法律相关从业人员人工阅读，以人工处理为主。最终的处理手段是由人工分类储存，缺乏自动提取文本关键信息的工具。因此急需一个有效的数据分析工具来替代人工分析处理。基于这一问题，本系统计划采用自然语言处理的方法对案例文本进行自动化处理，实现案件法律要素的自动提取；进一步地，根据文本相似度提供智能类案对比。

中文分词采用的是开源分词工具jieba。在开发中实现的功能包括：中文分词和去除停止词(如“的”、“地”等)，首先根据标点符号对全文进行切分，使之成为一个个独立的短句，然后按照在文中的顺序，使用Jieba分词进行分词，对于每一个词，使用专门的停用词类加载文本中规定的停用词进行判断，如果为停用词，则放弃该词，如果不是停用词，则将其加入最后的分词结果列表中。

IF-IDF主要思想是：如果某个词或固定短语在一篇文章中出现的频率TF高，并且在同一数据集的其他文章中很少出现，则可以认为此词或者固定短语具有很好的类别区分能力，适合用来进行文本分类。该方法主要用于评估每一个词对于一系列文件组成的文件集合中的某一份文件的重要程度，可以生成词语的权值向量，可以利用该向量进行关键词提取、生成文本向量用于计算文本相似性等。

裁判文书向量模型的方法是：首先对不同文档的特征词集合合取并集，获得一个统一的特征词集合，然后新的向量模型的维数就是该集合的元素数，每一位维对应该集合中的一个词，如果文档中没有某个词，则对应维度置为0.0。

k-means是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。利用k-means先计算出与当前案例最接近的聚类中心，获取该聚类中心所属的所有案例。余弦相似度是通过计算聚类中心的所有案例和当前案例的距离，计算结果的值越接近1，说明考察向量之间的夹角越小，从而各自所代表的裁判文书之间的相似度越大；反之则相似度越小。

发明内容

本发明要解决的问题是：提出一种基于k-means的法院类案推荐方法。本发明的技术方案为：

1)对裁判文书利用jieba文本分词工具进行分词，返回分词结果列表。

2)对jieba生成的分词结果列表进行关键词提取。提取过程为首选统计每篇文章中所有词各自出现的次数，计算词频TF，计算逆文档词频IDF，将TF和IDF的计算结果相结合，进行归一化处理。

3)依据TF-IDF关键词加权技术的计算结果，将每篇裁判文书依据包含的词进行向量化，得到新的裁判文书向量模型。

4)通过选定文书查询案例的案由，根据该案由通过k-means方法得到所属类的所有其他文书，基于裁判文书的向量模型，使用向量直接的余弦距离公式来计算其他文书与选定文书的余弦相似性，对相似性从大到小进行排序，取前五个进行推荐。

本发明的有益效果是：法律人员在对新案件进行分析时，本系统可以为其提供许多可供参考的相似案例，这些相似案例中包含了很多对此次判决有用的知识，如历史判决中引用的法条，判决结果等信息，使用这些信息可以促进判决公正，节省查阅案例的时间，提高工作的效率。

附图说明

图1系统业务流程图

图2系统用例图描述图

图3中文分词功能类图

图4裁判文书关键词加权功能类图

图5裁判文书向量模型建立类图

图6裁判文书相似性推荐类图

具体实施方式

本方法是以k-means算法为框架，所以先实现了k-means聚类算法，再在其上进行优化，通过对k-means聚类算法得到的聚类中心的所有案例进行余弦相似度的计算，选取相似度最高的前五个作为案例推荐。在进行一个案例推荐时，用户上传一个XML文件，首先需要判断该案例文书是否被预处理过，如果已经被预处理了，则直接调用相似案例推荐模块进行案例推荐；如果没有被预处理，则按如下过程对数据进行预处理。首先将对上传的文本进行分词和关键词的提取，然后建立新的向量模型，最后再调用相似案例推荐模块进行案例推荐。本方法的具体执行流程见图1。

在该系统中，首先利用开源的工具jieba对文书正文内容进行中文分词和去除停止词，主要实现的功能是根据标点符号对全文进行切分，使之成为一个个独立的短句，然后按照在文中的顺序，使用Jieba分词进行分词，对于每一个词，使用专门的停用词类加载文本中规定的停用词进行判断，如果为停用词，则放弃该词，如果不是停用词，则将其加入最后的分词结果列表中。具体实现步骤如图3。

TF-IDF关键词抽取算法主要用于评估每一个词对于一系列文件组成的文件集合中的某一份文件的重要程度，可以生成词语的权值向量，可以利用该向量进行关键词提取、生成文本向量用于计算文本相似性等。这里采用TF-IDF对jieba生成的分词结果列表进行关键词抽取，其计算过程如下：

1.统计每篇文章中所有词各自出现的次数

2.计算词频TF

词频是某一词语在我们需要分析的文档中出现的次数。我们设在文本d_i中词语t_i的权重为w_ij，则归一化后的词频TF的计算公式如下：

其中m_j为词语t_j在文档d_i中出现的词数，M_i则为该文档中词语的总数。

3.计算逆文档频率IDF

逆文档频率用IDF表示。由TF-IDF思想我们可以知道，某个词语在越多篇数的文档中出现，它用于区分不同文档或者计算文档相似性的能力就越差。IDF公式如下：

在该公式中N表示训练集中的文档总数，n_j表示特征词t_j出现过的的文档数。

4.计算TF-IDF权值

TF可以较好识别高频的关键词，但是很多的高频词对分析文档的特征是没有任何帮助的，如本项目中的“法院”、“本院”、“诉讼”等高频词，与此同时，有很多与案由相关的低频词也有可能被忽略从而使特征提取的效果降低。IDF方法降低了那些大多数文章中出现的关键词的重要性，并增强了频率较低的关键词的重要性。因此我们需要将TF与IDF两种方法的计算结果相结合，同时，由于文档集合中的文档的长度互不相同，将TF和IDF直接相乘得到的结果是偏向长文本的，因此我们需要将TF-IDF进行归一化处理，从而避免这种偏向情况的出现，具体的计算公式如下：

其中，在该公式中N表示训练集中的文档总数，n_j表示特征词t_j出现过的的文档数。具体实现步骤如图4。

裁判文书向量模型的建立主要依据TF-IDF关键词加权技术的计算结果，将每篇裁判文书依据包含的词进行向量化，从而方便后续裁判文书相似性的计算。由于不同文档根据TF-IDF加权方法提取的特征词集合互不相同，为了对不同文档进行相似度计算，我们需要建立一个统一的向量模型。为了形象地解释给特征词集不同的文档建立统一向量模型的方法，本文给出如下一个例子：

假设有文档A、文档B、文档C，它们各自包含的特征词及由TF-IDF加权方法计算得到的权值如下所示：

表1示例文档A、B、C的TF-IDF加权

要对这三个文档建立一个统一的向量模型，我们首先需要对他们各自的特征词集合取并集，获得一个统一的特征词集合D＝{w0，w1，w2，w3，w4}，然后新的向量模型的维数就是该集合的元素数，每一维对应该集合中的一个词，如果文档中没有某个词，则将对应维置为0.0，由此可得新的向量模型如下：

表2示例文档A、B、C生成的向量模型

对于本系统中文档向量模型，构建方法类似，只是区别在于由于文档数据较大维度达到了147170维。具体实现步骤如图5。

通过上传的XML文件得到的案例号来查询案例的案由，根据查询到的案由获取该案由下的所有案件。利用k-means算法来计算到各个聚类中心的距离，选取一个最小的聚类中心，并获取该聚类中心所属类的所有案例，然后计算当前案例到各个案例的余弦相似性，将余弦相似性的计算结果进行排序，选取排序结果的前五个案例，按顺序返回案例号，并在web前端显示类似案件推荐列表和相似案件引用法条分布图。具体实现步骤如图6。

综上，本方法通过对上传的案例文书进行分词和关键词的提取，并建立新的向量模型，利用k-means和余弦相似度的方法可以有效的完成案例推荐。

Claims

1.一种基于k-means的法院类案推荐方法，其特征是：(1)上传文书，(2)对案例文书进行分词及关键词提取，(3)依据提取内容设计并构建相应的数据库，(4)利用余弦相似度和k-means结合的方法计算案例文书的相似性，(5)使用敏捷开发的方法实现了一套web系统。

2.据权利要求1所述的基于k-means的法院类案推荐方法，其特征是上传XML格式的裁判文书，将调用关键信息提取模块进行信息提取然后再将相关信息加入数据库中。依据TF-IDF关键词加权计算的计算结果建立裁判文书向量模型，基于该模型利用k-means和余弦相似度结合的方法实现相似性计算与推荐。

3.据权利要求1，2所述的基于k-means的法院类案推荐方法，其特征是具体步骤如下：

1)对裁判文书利用jieba文本分词工具进行分词，返回分词结果列表，

2)对jieba生成的分词结果列表进行关键词提取对其进行关键词提取。提取过程为首选统计每篇文章中所有词各自出现的次数，计算词频TF，计算逆文档词频IDF，将TF和IDF的计算结果相结合，进行归一化处理，

3)依据TF-IDF关键词加权技术的计算结果，将每篇裁判文书依据包含的词进行向量化，得到新的裁判文书向量模型，