CN113688635B

CN113688635B - 一种基于语义相似度的类案推荐方法

Info

Publication number: CN113688635B
Application number: CN202111019717.7A
Authority: CN
Inventors: 李佳静; 郝亚鑫; 尤红艳; 张鑫洁; 王鹏; 贺翔; 聂福回
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2023-05-30
Anticipated expiration: 2041-09-01
Also published as: CN113688635A

Abstract

本发明公开了一种基于语义相似度的类案推荐方法，具体如下：1，获得法律文书，得到案件文本；2，将预处理后的案件文本划分，形成案件样本集合；3，用案件样本集合训练文本分类模型；4，计算案件样本集合中两个案件文本的事实描述的语义相似度，从而生成语义相似度样本集合；5，采用语义相似度样本集合训练语义相似度计算模型；6，获得用户输入的查询文本，进行预处理；7，使用步骤3中的文本分类模型对预处理后的查询文本进行分类；8，根据步骤7的分类结果，使用步骤5生成的模型计算查询文本与对应类别中的案件文本的相似度，并推荐相似度数值最高的若干案件文本。本方法能够在没有法律专家知识的情况下有效地查询相似案件。

Description

一种基于语义相似度的类案推荐方法

技术领域

本发明涉及人工智能技术领域，特别是一种基于语义相似度的类案推荐方法。

背景技术

随着数字化存储的法律案件文本数量的激增,法务工作者和普通大众可以更轻松的对这些资料进行查阅,但从这些文本中检索到有用的信息也会耗费大量时间,因此设计算法准确地查找信息非常有意义,相似案例推荐就是其中很重要的一环。

类案推荐作为司法智能化的主要基础任务之一,其能够在一定程度上辅助量刑决策、规范裁判标准。目前的类案推荐方法，大多数需要法律专家的参与，对各种不同类型的案件标记出其中的事实要素和结果要素等，因此只能针对特定的应用场景。同时人工划分的相似度依赖于专家的经验，可能存在不准确的情况。因此需要一种能针对不同应用场景的方法，在没有法律专家的知识时也能够进行类案推荐。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于语义相似度的类案推荐方法，本方法对于用户给出的案件描述或者导入的裁判文书，在裁判文书库中进行检索，将检索到的类似案例按照文本语义的相似程度进行排序，并展示给用户。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于语义相似度的类案推荐方法，包括以下步骤：

步骤1、获得多个法律文书，进一步得到其中的案件文本；

步骤2、对案件文本进行预处理，并进一步对预处理后的案件文本划分为事实描述、法律条款和裁判结果，划分后的案件文本形成案件样本集合；

步骤3、从案件文本的裁判结果中抽取罪名，将罪名作为类别，对案件文本划分出的事实描述进行分类；采用步骤2的案件样本集合训练文本分类模型；

步骤4、计算案件样本集合中两个案件文本的事实描述的语义相似度，从而生成语义相似度样本集合；语义相似度样本集合包括多个语义相似度样本，两个案件文本的事实描述及它们的语义相似度作为一个语义相似度样本；

步骤5、采用语义相似度样本集合训练语义相似度计算模型；

步骤6、获得用户输入的查询文本，并对其进行预处理；

步骤7、使用步骤3中训练好的文本分类模型对预处理后的用户输入的查询文本进行分类；

步骤8、根据步骤7的分类结果，使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度，并推荐相似度数值最高的若干案件文本。

一种基于语义相似度的类案推荐方法，包括以下步骤：

步骤1、获得多个法律文书，进一步得到其中的案件文本；

步骤5、采用语义相似度样本集合训练语义相似度计算模型；

步骤6、获得用户输入的查询文本，并对其进行预处理；

步骤8、根据步骤7的分类结果，对查询文本所对应类别中的案件文本的事实描述进行筛选，筛选出相似文本；使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度，并推荐相似度数值最高的若干案件文本。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤8中，采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤1中获得法律文书的途径是使用网页爬虫获得，或由用户提供；在获得法律文书后，将其转换为文本，每个文本就是一个案件文本。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，其中步骤2中，所述预处理包括去除其中的人名、地名；对案件文本进行划分时，根据法律文书中的固定格式进行；其中事实描述以“经审理查明”开始，以“以上事实，有下列证据证实”结束；裁判结果以“判决如下”开始。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤3中，在进行文本分类时使用的分类算法包括朴素贝叶斯、KNN方法、决策树、支持向量机、FastText方法、TextCNN方法和TextRNN方法。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤4中，计算案件样本集合中两个案件文本的事实描述的语义相似度是指：根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值，该语义相似度数值作为两个案件文本的事实描述的语义相似度。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤4中，计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度；总体相似度的计算方法如下：

(1)罪名的相似度sim_n：

罪名从裁判结果中抽取，其中Name_A是案件文本A中的罪名，Name_B是案件文本B中的罪名；

(2)法条法款的相似度sim_a：

法条法款从法律条款中抽取，其中，Law_A是案件文本A中的法律条款集合，Law_B是案件文本B中的法律条款集合；

(3)判罚结果的相似度sim_t：

判罚结果包括四类因素：主刑，缓刑，剥夺政治权利和罚金；判罚结果从裁判结果中抽取；其中：

主刑的相似度sim_Y：

Y_A是案件文本A中的判罚年数，Y_B是案件文本B中的判罚年数；

缓刑的相似度sim_H：

H_A是案件文本A中的缓刑年数，H_B是案件文本B中的判缓刑年数；

剥夺政治权利的相似度sim_Z：

Z_A是案件文本A中的剥夺政治权利年数，Z_B是案件文本B中的剥夺政治权利年数；

将剥夺政治权利终身转换为剥夺政治权利10年；

罚金的相似度sim_M：

M_A是案件文本A中的罚金，M_B是案件文本B中的罚金；

(4)总体相似度sim_total：

sim_total＝sim_n*(sim_a+sim_t)/2。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤4中，语义相似度样本集合D＝{D₁,D₂,…,D_P}，P为类别总数，P≥x≥1，第x个类别的语义相似度样本D_x＝{(t_i,t_j,s_ij)}，M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数，t_i是第i个案件文本，t_j是第j个案件文本，s_ij是第i个案件文本和第j个案件文本的语义相似度；在生成的语义相似度样本集合中，既包括相似度为0的案件文本作为负例，也包括相似度不为0的案件文本样例作为正例。

作为本发明所述的一种基于语义相似度的类案推荐方法进一步优化方案，步骤5中，采用语义相似度样本集合训练语义相似度计算模型时，首先将语义相似度样本集合划分为一定比例的训练集，验证集和测试集；语义相似度计算模型包括语义表示计算模型和相似度计算模型，语义表示计算模型使用BERT或S-BERT模型，相似度计算模型使用向量的余弦夹角计算；

步骤8中，计算预处理后的查询文本与对应类别中的案件文本的语义相似度时，将预处理过的查询文本，以及案件样本集合中的事实描述作为步骤5训练好的语义相似度计算模型的输入，得到两者的语义相似度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明只利用案件文本自身的数据，根据法律条款和判决结果进行案件相似度定义提供的类案推荐方法能够满足在没有法律专家的参与的情况下从海量的法律案件中更快更有效地查询相似案件，并且同时也可以使非法律专业用户快速检索案件，找到案情相似的案例，提高检索效率。

附图说明

图1是本发明方法。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

如附图1所述一种基于语义的类案推荐方法，包括以下步骤：

步骤1、获得多个法律文书，进一步得到其中的案件文本；

步骤5、采用语义相似度样本集合训练语义相似度计算模型；

步骤6、获得用户输入的查询文本，并对其进行预处理；

其中获得法律文书的方法包括从网络抓取(例如中国裁判文书网：wenshu.court.gov.cn)也可以是现有的文本案例库。获得的法律文书可能是网页也可能是pdf的文件，从中获取其中的文本，每个文本就是一个案件文本。案件文书在预处理时，将其中与案件无关的包括人名地名等信息进行删除，以提高语义分析的效果。目前只针对刑事案件判决书进行分析，其他类型的裁判文书暂没有处理。

将每个案件文本划分为事实描述，法律条款和裁判结果三部分。案件文书在编写时具有一定的格式规范，其中事实描述部分通常以“经审理查明”开始，以“以上事实，有下列证据证实”结束；裁判结果部分以“判决如下”开始。

用案件样本集合训练文本分类模型时，根据裁判结果中的罪名作为类别，对划分出的事实描述部分的文本进行分类。在进行文本分类时使用的分类算法可以使用常见的文本分类算法，包括机器学习的方法，例如朴素贝叶斯，KNN方法，决策树，支持向量机等，以及深度学习方法例如FastText,TextCNN,TextRNN等方法。

其中步骤4中，计算案件样本集合中两个案件文本的事实描述的语义相似度是指：根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值，该相似度数值作为两个案件文本的事实描述的语义相似度。计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度；总体相似度的计算方法如下：

首先分别计算罪名，法条法款，判罚结果的相似度，然后计算总体相似度：

(1)罪名相似度：

罪名从裁判结果中抽取，例如法律文书中“被告人**犯诈骗罪”，从中抽取得到“诈骗罪”。其中Name_A是案件文本A的中的罪名，Name_B是案件文本B中的罪名。

(2)法条法款相似度：

法条法款从法律条款中抽取。

(3)判罚结果相似度：

判罚结果由四类因素组合形成：主刑、缓刑、剥夺政治权利和罚金。其中判罚结果从裁判文书中抽取，例如“判处有期徒刑三年，缓刑三年，并处罚金人民币六千元”，抽取得到(主刑，3年)，(缓刑，3年)，(罚金，6000元)。

分别计算主刑、缓刑、剥夺政治权利和罚金的相似度：

主刑：

Y_A是案件文本A中的判罚年数，Y_B是案件文本B中的判罚年数(单位转换成月数)。

主刑分为：管制(3个月以上2年以下)、拘役(1个月以上6个月以下)、有期徒刑(6个月以上15年以下)、无期徒刑、死刑，为了方便计算，将管制最高上限24个月等价于拘役的下限1个月(按限制人身自由为思考基础，管制没有限制人身自由，拘役限制了)，无期徒刑转换为15年，死刑转换为100年。

缓刑：

H_A是案件文本A中的缓刑年数，H_B是案件文本B中的判缓刑年数(单位转换成月数)。

剥夺政治权利：

Z_A是案件文本A中的剥夺政治权利年数，Z_B是案件文本B中的剥夺政治权利年数(单位转换成月数)。

为了统一计算，把剥夺政治权利终身转换为剥夺政治权利10年(此为剥夺政治权利年数的上限)

罚金：

M_A是案件文本A中的罚金，M_B是案件文本B中的罚金；

(4)总相似度：

sim_total＝sim_n*(sim_a+sim_t)/2

语义相似度样本集合D＝{D₁,D₂,…,D_P}，P为类别总数，P≥x≥1，第x个类别的语义相似度样本D_x＝{(t_i,t_j,s_ij)}，M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数，t_i是第i个案件文本，t_j是第j个案件文本，s_ij是第i个案件文本和第j个案件文本的语义相似度；在生成的语义相似度样本集合中，既包括相似度为0的案件文本作为负例，也包括相似度不为0的案件文本样例作为正例。

其中步骤5中，采用语义相似度样本集合训练语义相似度计算模型时，首先将语义相似度样本集合划分为一定比例的训练集，验证集和测试集；例如6：2：2。将语义相似度样本(t_i,t_j,s_ij)作为语义相似度计算模型输入，使用Transformer结构计算文本的语义表示。语义相似度计算模型包括语义表示计算模型和相似度计算模型，语义表示计算模型使用BERT或S-BERT模型但也不限于这些，相似度计算模型使用向量的余弦夹角计算。

其中步骤6中，对用户输入的查询文本的预处理方法与步骤2相同。

对于步骤8还可以改为：根据步骤7的分类结果，采用BM25等算法对查询文本所对应类别中的案件文本的事实描述进行筛选，筛选出相似文本；使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度，并推荐相似度数值最高的若干案件文本。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于语义相似度的类案推荐方法，其特征在于，包括以下步骤：

步骤1、获得多个法律文书，进一步得到其中的案件文本；

步骤4中，计算案件样本集合中两个案件文本的事实描述的语义相似度是指总体相似度；总体相似度的计算方法如下：

(1)罪名的相似度sim_n：

(2)法条法款的相似度sim_a：

(3)判罚结果的相似度sim_t：

主刑的相似度sim_Y：

缓刑的相似度sim_H：

剥夺政治权利的相似度sim_Z：

将剥夺政治权利终身转换为剥夺政治权利10年；

罚金的相似度sim_M：

M_A是案件文本A中的罚金，M_B是案件文本B中的罚金；

(4)总体相似度sim_total：

sim_total＝sim_n*(sim_a+sim_t)/2；

步骤5、采用语义相似度样本集合训练语义相似度计算模型；

步骤6、获得用户输入的查询文本，并对其进行预处理；

步骤8、根据步骤7的分类结果，使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与对应类别中的案件文本的事实描述的语义相似度，并推荐相似度数值最高的若干案件文本；

或，根据步骤7的分类结果，对查询文本所对应类别中的案件文本的事实描述进行筛选，筛选出相似文本；使用步骤5训练好的语义相似度计算模型计算预处理后的查询文本与筛选后的相似文本的事实描述的语义相似度，并推荐相似度数值最高的若干案件文本。

2.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，步骤8中，采用BM25算法对查询文本所对应类别中的案件文本的事实描述进行筛选。

3.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，步骤1中获得法律文书的途径是使用网页爬虫获得，或由用户提供；在获得法律文书后，将其转换为文本，每个文本就是一个案件文本。

4.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，其中步骤2中，所述预处理包括去除其中的人名、地名；对案件文本进行划分时，根据法律文书中的固定格式进行；其中事实描述以“经审理查明”开始，以“以上事实，有下列证据证实”结束；裁判结果以“判决如下”开始。

5.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，步骤3中，在进行文本分类时使用的分类算法包括朴素贝叶斯、KNN方法、决策树、支持向量机、FastText方法、TextCNN方法和TextRNN方法。

6.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，步骤4中，计算案件样本集合中两个案件文本的事实描述的语义相似度是指：根据法律条款和裁判结果计算得到两个案件文本的语义相似度数值，该语义相似度数值作为两个案件文本的事实描述的语义相似度。

7.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，步骤4中，语义相似度样本集合D＝{D₁,D₂,…,D_P}，P为类别总数，P≥x≥1，第x个类别的语义相似度样本D_x＝{(t_i,t_j,s_ij)}，M≥i≥1、M≥j≥1,M是第x个类别的语义相似度样本的总数，t_i是第i个案件文本，t_j是第j个案件文本，s_ij是第i个案件文本和第j个案件文本的语义相似度；在生成的语义相似度样本集合中，既包括相似度为0的案件文本作为负例，也包括相似度不为0的案件文本样例作为正例。

8.根据权利要求1所述的一种基于语义相似度的类案推荐方法，其特征在于，步骤5中，采用语义相似度样本集合训练语义相似度计算模型时，首先将语义相似度样本集合划分为一定比例的训练集，验证集和测试集；语义相似度计算模型包括语义表示计算模型和相似度计算模型，语义表示计算模型使用BERT或S-BERT模型，相似度计算模型使用向量的余弦夹角计算；