CN111709236B

CN111709236B - 一种基于案件相似度匹配的审判风险预警方法

Info

Publication number: CN111709236B
Application number: CN202010473652.2A
Authority: CN
Inventors: 周凡; 林格; 陈小燕; 林谋广
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2024-01-09
Anticipated expiration: 2040-05-29
Also published as: CN111709236A

Abstract

本发明公开了一种基于案件相似度匹配的审判风险预警方法。本发明对法律文本进行word2vec词向量嵌入，并将关键词用词向量进行表示，使用余弦相似度来计算不同案件之间的相似度。当获得与案件相关联的多种案件之后，基于关键词抽取的技术找出其判决结果，智能化给出本案件合理的判决结果范围，当实际判决结果与推荐判决范围差别过大时及时进行智能预警。本发明使用了一种基于自然语言理解的类案提取和风险预警技术，拓展了类案提取的广度；使用了人工智能中的自然语言理解方法，可提取出更具有深层语义的案件；在风险预警方面，大大减轻了人力负担，充分挖掘了历史电子案宗和判决结果之间的联系信息，使得法官判决时具有更便捷的参考。

Description

一种基于案件相似度匹配的审判风险预警方法

技术领域

本发明涉及机器学习及自然语言处理领域，具体涉及一种基于案件相似度匹配的审判风险预警方法。

背景技术

在大数据时代，人工智能在各个行业都有着广泛的应用。在智慧法院建设方面，全面推进移动电子诉讼，推广量刑辅助、风险预警等智能辅助系统可以切实减轻审判法院事务性工作负担,帮助法官提升办案效率和判决质量，以信息化手段推进审判、执行、服务智能化。通过充分利用人工智能技术对法律文本、过往判例、电子案宗进行分析、处理、归类，当法官判决结果与系统对过往相似案例的评估结果差异较大时自动进行风险预警。通过这些智能辅助类系统可以有效减少“同案不同判”的现象的发生。

现有的技术之一为目前的法院智能化系统，采用关键词匹配技术的类案推送，人力进行分析和比对，通过讨论降低“同案不同判”的风险。其流程具体如下：

1、将纸质卷宗整理后，在高清晰度的扫描后生成电子卷宗，并将其存入数据库中。这一过程常需要法官人员对卷宗进行关键词、类别标注。

2、对该电子卷宗进行扫描，并生成电子卷宗，在现有的数据库中找出具有相同关键词的判决案件，将对应的关键词相连接的法律法规同时检索出来，并将其向法官推送。

3、法官对相关的案件和法规进行人工查阅，进而得出具有一定参考性的判决，并由人工进行评议讨论，讨论该判决是否合理。

该技术的缺点是：

1、只能进行简单的文本匹配搜索，不能自动对语义上近似的文本进行检索。

2、人工查阅、筛选参考资料的方式效率较低，需要花费法官大量的时间进行进一步的讨论。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于案件相似度匹配的审判风险预警方法。本发明解决的主要问题有两个：一是如何基于自然语言理解的技术找出与当前审判案件相近的历史案宗，使得系统可以按照案件相关性精准检索出海量的历史案宗。其中主要的技术难点是如何充分理解案件信息背后的自然语义，克服关键词匹配的局限性。二是如何针对不同的历史案件的判决结果进行筛选，并根据历史案件计算出当前案件判决结果的合理范围。

为了解决上述问题，本发明提出了一种基于案件相似度匹配的审判风险预警方法，所述方法包括：

步骤一：从法律判决书信息管理系统中获取近3年来的法院判决书，使用关键词匹配的方法，提取出对应的案件描述、裁决结果。

步骤二：对提取的案件数据进行文本的预处理，得到案件文本的训练语料。预处理的操作包括，对其进行分词，过滤停留词、人名、地名、时间等特殊词语，并只保留过滤现频率过低的词语等。

步骤三：运用word2vec方法对预处理生成的案件文本语料进行词向量的训练，对每一个出现在语料中的单词都得到一个词向量，每个词向量具有d的维度。

步骤四：在使用关键词匹配抽取得到的案件描述、判决结果中分别抽取k₁和k₂个高频词语作为本篇判决书的关键词，分别计算其TF-IDF词频，并取出其训练后得到的向量组，计算得到加权平均向量。此时第i篇判决书由两个维度为d的向量表示，分别是案件描述向量和判决结果向量。

步骤五：从数据库系统中提取出当前案件的案件描述和判决结果，按照步骤一至步骤四进行处理，从而获取当前的案件判决书的案件描述向量和判决结果向量。

步骤六：将步骤五获得的当前案件描述向量与步骤四中获得的历史案件描述向量进行矩阵点乘，计算当前判决书与数据库中每一个判决书的案件描述相似度。

步骤七：将步骤六获取的文本相似度进行排序，选取相似度较高的M个案件，找到其判决结果向量。

步骤八：对步骤七获得的M个案件的判决结果向量，与当前案件的判决结果向量进行点乘，得到不同案件判决结果的相似度。

步骤九：计算步骤八获得的当前案件与历史案件的判决结果相似度的平均值，该平均值求倒数得到当前判决结果的风险值，当风险值大于阈值时，系统启动风险预警。

本发明提出的一种基于案件相似度匹配的审判风险预警方法，对法律文本进行word2vec词向量嵌入，并将关键词用词向量进行表示，使用余弦相似度来计算不同案件之间的相似度。当获得与案件相关联的多种案件之后，基于关键词抽取的技术找出其判决结果，智能化给出本案件合理的判决结果范围，当实际判决结果与推荐判决范围差别过大时及时进行智能预警。本发明使用了一种基于自然语言理解的类案提取和风险预警技术，拓展了类案提取的广度；使用了人工智能中的自然语言理解方法，可提取出更具有深层语义的案件；在风险预警方面，大大减轻了人力负担，充分挖掘了历史电子案宗和判决结果之间的联系信息，使得法官判决时具有更便捷的参考。

附图说明

图1是本发明实施例的基于案件相似度匹配的审判风险预警方法总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于案件相似度匹配的审判风险预警方法总体流程图，如图1所示，该方法包括：

S1：从法律判决书信息管理系统中获取近3年来的法院判决书，使用关键词匹配的方法，提取出对应的案件描述、裁决结果。

S2：对S1提取的案件数据进行文本的预处理，得到案件文本的训练语料。预处理的操作包括，对其进行分词，过滤停留词、人名、地名、时间等特殊词语，并只保留过滤现频率过低的词语等。

S3：运用word2vec方法对S2生成的案件文本语料进行词向量的训练，对每一个出现在语料中的单词都得到一个词向量，每个词向量具有d的维度。

S4：在S1抽取得到的案件描述、判决结果中分别抽取k₁和k₂个高频词语作为本篇判决书的关键词，分别计算其TF-IDF词频，并取出其训练后得到的向量组，计算得到加权平均向量。此时第i篇判决书由两个维度为d的向量表示，分别是案件描述向量和判决结果向量。

S5：从数据库系统中提取出当前案件的案件描述和判决结果，按照S1-S4的步骤进行处理，从而获取当前的案件判决书的案件描述向量和判决结果向量。

S6：将S5获得的当前案件描述向量与S4中获得的历史案件描述向量进行矩阵点乘，计算当前判决书与数据库中每一个判决书的案件描述相似度。

S7：将S6获取的文本相似度进行排序，选取相似度较高的M个案件，找到其判决结果向量。

S8：对S7获得的M个案件的判决结果向量，与当前案件的判决结果向量进行点乘，得到不同案件判决结果的相似度。

S9：计算S8获得的当前案件与历史案件的判决结果相似度的平均值，该平均值求倒数得到当前判决结果的风险值，当风险值大于阈值时，系统启动风险预警。

步骤S1，具体如下：

S1-1：从法律判决书信息管理系统获取近3年的共N封法院判决书，其格式为(P，R)，其中P表示案件综述，R表示案件判决结果。

步骤S2，具体如下：

S2-1：对S1-1提取的案件数据使用自然语言处理技术进行预处理，对其进行分词，过滤停留词、词语等，得到初步的语料。

S2-2：对S2-1预处理后得到的初步语料进行进一步预处理。这一步预处理与上一步预处理的区别在于需要使用更具体的过滤方式，使用关键词匹配的方式定位人名、地名、时间，并将其过滤等，这一步得到最终的训练语料(P′，R′)。

步骤S3，具体如下：

S3-1：使用谷歌开源的word2vec工具，对S2-2得到的训练语料(P′，R′)进行训练，得到语料模型。

S3-2：将S3-1得到的语料模型中的词向量使用字典进行存储，此时的f(x)形式如下：

这个向量表示“法院”这个单词的向量表示，其具体数值表示不同的含义。

步骤S4，具体如下：

S4-1：对S2-2得到的训练语料中的案件描述和判决结果分别抽取出法律判决书的案件综述的k₁和k₂个高频词语和/>分别得到它们的向量表示：和/>

S4-2：对S4-1得到的案件描述和判决结果的高频词语分别计算其TF-IDF的词频权重。此时对于每一个单词c_i都得到其TF-IDF的权重

S4-3：使用S4-2得到的权重对S4-1得到的向量进行求和操作，分别得到每个案件描述和判决结果的综合向量。

计算公式为：

步骤S5，具体如下：

S5-1：按照S1-1的步骤从数据库中提取出当前案件的案件描述和拟定判决结果(P_cur，R_cur)，按照S1-1到S4-3的处理过程，得到计算当前案件描述和拟定判决结果的综合向量其判决书的向量表示f(P_cur)和f(R_cur)。

步骤S6，具体如下：

S6-1：对S4-3得到所有案件描述的向量表示f(P_i)和S5-1得到的当前案件描述的向量表示f(P_cur)，分别计算点乘，得到所有案件与当前案件的相似度向量。其公式为：

步骤S7，具体如下：

S7-1：对S6-1得到的当前案件与历史案件的相似度向量，找出和当前案件最相近的N_m个历史案件

S7-2：对S7-1得到的案件查找其判决结果向量

步骤S8，具体如下：

S8-1：对S7-2得到所有判决结果的向量表示f(R_i)和S5-1得到的当前案件拟定判决结果的向量表示f(R_cur)，分别计算点乘，得到所有案件与当前案件的判决结果的相似度向量。其公式为：

步骤S9，具体如下：

S9-1：对S8-1得到的判决结果的相似度R_sim计算平均值，并对该平均值求倒数得到风险值。

S9-2：对S9-1得到的风险值进行评估，当其大于阈值时，即该案的判决结果与相似历史案件的判决结果偏离较大，对法官进行判决结果偏离风险预警。

本发明实施例提出的一种基于案件相似度匹配的审判风险预警方法，对法律文本进行word2vec词向量嵌入，并将关键词用词向量进行表示，使用余弦相似度来计算不同案件之间的相似度。当获得与案件相关联的多种案件之后，基于关键词抽取的技术找出其判决结果，智能化给出本案件合理的判决结果范围，当实际判决结果与推荐判决范围差别过大时及时进行智能预警。本发明使用了一种基于自然语言理解的类案提取和风险预警技术，拓展了类案提取的广度；使用了人工智能中的自然语言理解方法，可提取出更具有深层语义的案件；在风险预警方面，大大减轻了人力负担，充分挖掘了历史电子案宗和判决结果之间的联系信息，使得法官判决时具有更便捷的参考。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于案件相似度匹配的审判风险预警方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于案件相似度匹配的审判风险预警方法，其特征在于，所述方法包括：

步骤一：从法律判决书信息管理系统中获取近3年来的法院判决书，使用关键词匹配的方法，提取出对应的案件描述、裁决结果；

步骤二：对提取的案件数据进行文本的预处理，得到案件文本的训练语料；

步骤三：运用word2vec方法对预处理生成的案件文本语料进行词向量的训练，对每一个出现在语料中的单词都得到一个词向量，每个词向量具有d的维度；

步骤四：在使用关键词匹配抽取得到的案件描述、判决结果中分别抽取k₁和k₂个高频词语作为本篇判决书的关键词，分别计算其TF-IDF词频，并取出其训练后得到的向量组，计算得到加权平均向量；此时第i篇判决书由两个维度为d的向量表示，分别是案件描述向量和判决结果向量；

步骤五：从数据库系统中提取出当前案件的案件描述和判决结果，按照步骤一至步骤四进行处理，从而获取当前的案件判决书的案件描述向量和判决结果向量；

步骤六：将步骤五获得的当前案件描述向量与步骤四中获得的历史案件描述向量进行矩阵点乘，计算当前判决书与数据库中每一个判决书的案件描述相似度；

步骤七：将步骤六获取的文本相似度进行排序，选取相似度较高的M个案件，找到其判决结果向量；

步骤八：对步骤七获得的M个案件的判决结果向量，与当前案件的判决结果向量进行点乘，得到不同案件判决结果的相似度；