CN113312474A

CN113312474A - 一种基于深度学习的法律文书的相似案件智能检索系统

Info

Publication number: CN113312474A
Application number: CN202010123876.0A
Authority: CN
Inventors: 邹伟; 王燕妮; 崔冬冬; 潘相瑜; 李俊玲
Original assignee: Beijing Ruikebang Technology Co ltd
Current assignee: Beijing Ruikebang Technology Co ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2021-08-27

Abstract

本发明公开一种基于深度学习的法律文书的相似案件智能检索系统；包括法律文书数据采集及预处理模块，文书数据处理模块，长文本匹配模块，短文本匹配模块；将处理后的法律文书数据带入文本分类模型和文本向量模型中完成模型的训练，将两模型结合进行长文本相似文本的匹配，利用大量真实的数据对模型进行训练，得到一个针对求长文本相似案件文书的匹配模型；通过对全部文书和短文本进行分词处理，进行关键词匹配以及相关的算法处理实现短文本相似案件匹配操作；通过长文本匹配和短文本匹配模块构建的类案智能推荐系统针对用户使用情况，为用户提供完善的类案推荐，选用相应的算法提高类案检索的效率，为用户提供一种便捷，快速的类案检索系统。

Description

一种基于深度学习的法律文书的相似案件智能检索系统

技术领域

本发明涉及一种智能化的类案推荐系统，主要适用于法律领域中律师判案方面，辅助律师办案，实现对案件的相似文书进行智能推荐。

背景技术

律师处理案件流程中，其中必不可少的环节是需要对以往的相似案件进行分析，对其中裁判文书的相关的法院判决，以及案件背景情况进行分析，进一步整合自身案件情况得出案情判断，但目前律师中常用的历史案件查看以及相似案情分析的手段还是靠手动查找居多，需要耗费大量时间和精力去整理，在律师对整个案件审理过程中占了大部分时间，与此同时可能由于整理查看的历史案件还不够充分，导致最后耗费时间整理的类案的情况对案件的审理并没有很大的用处，故选择一种简洁，快速地对相似案件进行查询整理的方法是十分必要的，本专利一种基于深度学习的法律文书相似案件的智能检索系统，根据律师对案件的描述或者一篇法律文书，从法律文书数据库中寻找到与描述或者与要查找文书相似的法律文书。为了寻找到相似的文书内容，使用到语义理解技术，同时采用一系列的AI算法将文本解析为结构化的、机器可读的意图与词槽信息，对自然语言文本进行相关分析，目前应用语义识别技术的场景领域比较广泛，例如生活中常用的购物网站的智能问答系统，以及广泛应用于网站上的智能机器人，以上描述的产品都是语义识别技术与自身行业特性相结合，实现对文本描述进行分析并得出结果，本发明基于深度学习的法律文书的相似案件智能检索系统，针对国内目前律师断案时所采用的方式，提供一种智能手段辅助律师进行断案，减少在律师案件整理所耗费的时间和精力，简化案件查询过程。对于数据量庞大的法律文书库，本专利选用相应的算法训练，进一步细分文书属性特征，提高相似文书的检索速度与准确度。

发明内容：

本发明所述的法律文书的相似案件智能检索系统，又可称类案智能检索系统，是针对目前在法律判案方面使用方法现状，提供一种辅助律师办案的技术手段，利用人工智能技术来创造一个‘智能法官’的角色，该技术的主要作用是对给定一篇法律文书或者根据一段语言描述，从法律文书数据库里匹配到对应的法律文书或者与其描述内容相似的法律文书，通过一系列的操作，律师可以借鉴相似的案件的法院处理过程与判决结果来辅助办案。

语义识别技术能够通过对所述的文本内容进行分析，从而整理得出结论，目前广泛应用于众多领域的智能知识问答方面，例如网站智能客服。

本发明具有以下优点：

本专利基于深度学习算法，提供一种应用于法律案件整理方面的案件智能检索技术手段，针对目前律师案件整理的现状，克服大量的以往法律文书数据，智能得为用户提供相似案件的整理，解决以往采用类案整理方式，为了为用户提供更精确的类案相关信息，本专利采用两种方式去解决该问题，用户若是并不熟悉法律知识的人员，可以输入相关的简短的语言描述，通过正则匹配的方式筛选相似的文书，然后训练的Word2vec模型，利用加权求平方的方式进一步求取文本相似度，对于长文本也就法律文书求其类案，训练全文的doc2vec模型，以及法律文书的‘争议焦点或本院认为’的word2vec模型，进而从全文相似的文书里找到相似文书。

由于法律文书数据量十分庞大，对案件进行相似案件的检索是很困难的，可能会出现类案匹配不准确的情况，为了提高相似案件检索的准确度，本专利采用fasttext算法对大量的法律文本数据进行处理，提高检索的准确度和效率。

在对短文本求相似案件时，其中对关键词匹配打分时，选用我们自研算法，对短文本进行切词后会遍历所有的文书，找到短文本切词后词语在文书中的出现的个数，以及这些词语出现的总个数，两者乘积是短文本与库中文书之间的得分，当遍历完毕后，得到短文本与文书相似得分，进一步缩小相似文书的范围，提高相似文本的精确性。

系统工作执行流程：

本发明通过对输入的案件描述或整篇法人法律文书进行分析，智能地进行相似案件的推荐，供用户借鉴，根据输入的文本描述的长度，整体上分为对长文本、短文本两种情况分析。

情况一：对长文本匹配：对于用户输入的长篇法律相关描述，或长篇法律文书，为了提供给用户相似案件的文书信息，采用下述步骤对输入的长文本内容进行分析。

步骤1：数据预处理。在进行模型训练之前需要对大量的法律文书数据进行数据预处理，将数据处理成模型需要输入格式的文本。

(1)步骤1中将对数据进行预处理是将处理的法律文书使用jieba模块进行分词，分词同时需要加入自己的停用词和自定义的字典，将文书处理成fasttext模型要求的输入格式。

步骤2：分类模型训练。数据预处理完毕后，将文书处理好后，带入模型进行训练接着进行的是分类模型的训练，为了提高长文本匹配的准确性，训练了两种分类模型，使用深度学习的fasttext算法进行两类分类模型的训练。

(1)步骤2中训练的两种分类模型，第一种是实现对案件类型的分类，此分类一共分为五个类类别，分别是刑事案件、民事案件、行政案件、赔偿案件、执行案件，由于在法律文书数据获取的时按照案件类型到案由存储方式进行保存的，已经实现文书精确到所属的案由类型，以及模型训练时参数的设置，项目中设置模型参数训练轮次(epoch)为500，学习率(lr)为0.01进行模型的训练。

(2)同样的案由分类模型也是采用同样方式进行训练的，在训练案由分类模型时是以案件类型为单位训练，也就是总共训练5个案由分类模型。

步骤3：文章向量模型的训练。文章向量模型的目的是用来寻找相似文本，这里训练两种文章向量模型，与步骤2训练分类模型一样，在训练模型之前需要对文本进行分词处理，分词完毕后需要将所有分好词的文书数据装入‘词袋’中，词袋中存储的不仅仅是文书还有与之对应的tag，处理完毕后即可进入文章向量模型的训练。

(1)步骤3中训练两种文章向量模型，第一种是基于法律文书全文进行训练的，第二种将多有法律文书中的‘争议焦点’或‘本院认为’进行正则匹配提出后，进行训练。

(2)法律文书的争议焦点指的是当事人产生纠纷后需要解决的问题，本院认为是指法律文书中法院对案件审判意见。

(3)步骤3中的tag是以文件名定义的，这里的文件名相当于文件的id，具有唯一性。

步骤4：算法结合。将文本分类模型与文章向量模型训练好后，将整个过程连接起来，对于长文本作为输入，先将文本内容进行分词，然后带入到案件类型分类模型中，得到输入文书所属的案件类型，根据案件类型对应相应的训练好的案由分类模型，将长文本带入，得到文书所属的案由。

步骤5：相似案件的推荐。通过步骤4模型算法的结合，根据案件类型找到相应的基于全文和‘争议焦点’或‘本院认为’训练的文章向量模型，得到输入长文本(文书)所在案件类型下所有文书之间的相似度，从相似度列表里面找出与输入文书所在案由相同的所有文书，然后按照相似度排序提取top n，选择相似度存在较高的文书。

情况二：短文本匹配：根据输入的一段相关的案情描述，得到相似内容的法律文书推荐。短文本相似案件的推荐工作流程，整体上可以分为三步，关键词匹配打分，文本向量匹配，词向量的匹配。

步骤1：关键词匹配打分。这里用到的关键词匹配算法是自研算法，首先将所有爬取的法律文书处理成设计好的存储格式，当使用到一个短文本进行关键词匹配时，对短文本进行切词后会便利所有的文书，找到短文本切词后词语在文书中出现的个数A，这些出现词语的总个数B,两者乘积作为短文本与文书库中文书之间的得分，当遍历完毕以后会得到短文本所有文书之间的相似度得分，对结果进行排序后取top n。

步骤2：文本向量匹配。通过步骤1对关键词进行匹配后，接着训练基于全部文书的文章向量模型，正则匹配到top n的文书数据中的‘争议焦点’或‘本院认为’部分的所有单词的向量进行加权平均，top n中每个文书与输入的短文本都有的向量，完成文本向量的匹配。

步骤3：词向量匹配。通过步骤2对文本向量进行匹配，计算文本之间的距离可以得到短文本与top n之间的进一步相似性结果，完成对短文本的相似文书的推荐。

关键技术：

本专利一种基于深度学习的法律文书的相似案件智能检索系统，对于长文本(通常是一篇完整的法律文书)和短文本(对法律相关的简单描述)分别进行处理，对于长文本进行类案检索，主要是通过对案件类型和案由两类分类模型训练，得到输入的长文本的案件类型与案由类型，以及使用到文本向量模型，求取与库中文书的相似情况，对于短文本的类案推荐，主要是用到关键词匹配打分，进一步缩小相似案件的范围，提高类案推荐的准确度。

附图说明：

图1：类案智能检索系统

图2：‘数据采集及预处理’流程图

图3：‘文本数据处理’流程图

图4：文本分类模型流程图

图5：文本向量模型流程图

图6：‘文本争议焦点或本院认为向量模型’流程图

图7：‘长文本匹配’流程图

图8：‘长文本匹配’模块结构图

图9：‘短文本匹配’模块结构图

图10：‘短文本匹配’数据流程图

图11：fasttext模型架构图

图12：word2vec模型结构图

图13：PV-DM模型结构图

图14：PV-DBOW模型结构图

图15：‘中国裁判文书网’采集的文书数据

图16：预处理后的文书数据

图17：‘文书数据’处理结果

图18：‘长文本匹配’效果图

具体实施方案：

下面结合附图和具体实施方案对本发明作详细介绍。

图1是智能类案推荐系统的结构图，系统主要分为以下几个功能模块，‘数据采集以及预处理模块’，以及针对长文本(通常是一篇完整的法律文书)和短文本(与文书相关的描述)两种情况进行分别考虑时，需要对模型输入的文书数据进行处理的‘数据处理模块’，以及实现对长文本相似文书的匹配的‘长文本匹配模块’，以及对短文本进行相似文书匹配的‘短文本匹配模块’，下面对上述系统功能模块对本发明做详细的描述：

‘文书数据采集及预处理模块’：‘数据采集及预处理’流程图如图2所示，其算法实现的第一步是获取法律文书数据，这里法律文书数据是自行设计爬虫程序从《中国裁判文书网》上爬取的，如图15所示是‘中国裁判文书网’采集的文书数据，到目前为止《中国裁判文书网》已经录入8400多万篇法律文书，目前已经成功爬取了300万篇法律文书，而爬虫程序一直处于运行状态，为了内容文书多样性，数据一直处于不断增加的状态，详细的数据预处理的结果如图16所示。

预处理模块：爬虫程序爬取的数据是json格式的文件，其中文件里包含了每篇法律文书的多方面信息，如：案件类型，案由类型、法院、法律文书正文名称等等，其中法律文书正文部分在进行数据爬取的时候会把网页中的html标签联通正文部分一起保存进json文件里，需要对这些数据包含的html标签进行清洗，以及为了后续的算法的使用，将原本的数据清洗完毕以后按照案件类型与案由分类存储成txt格式。

‘文书数据处理模块’：‘文本数据处理’流程图如图3所示，在进行法律文书的案件类型，案由类型的分类模型训练时，使用到fasttext算法，如图11所示是fasttext模型结构图，在将文书数据带入到fasttext模型训练之前，需要对法律文书数据进行处理，将数据处理成模型所需要的输入格式，如‘_label_class’格式，其中_label_作为词的前缀，class是表明词所属的类别，具体处理效果如图17所示。

‘长文本匹配模块’：如图7所示是‘长文本匹配’流程图，‘长文本匹配’模块结构图如图8所示，长文本匹配的第一步是进行文本的分类，如图4所示是文本分类模型流程图，其中使用关键算法，使用fasttext深度学习算法实现对文本分类，这一步的分类是指案件类型的分类，确定文书是哪种案件类型后进行的分类是确定文本的所属案由，同时给每一种案件类型训练了全文的doc2vec模型，也就是训练文书的文本向量模型，如图5所示是文本向量模型流程图，以及图6是‘文本争议焦点或本院认为向量模型’流程图，其中对文书中的‘争议焦点’或‘本院认为’求取其文本向量的doc2vec模型，如图13所示的PV-DM模型结构图是保留对上下文的记忆或者说是段落主题，而doc2vec模型的另一种形式如图14PV-DBOW模型结构图所示，其忽略输入的上下文进行模型的训练，长文本依据案件类型的分类结果选择相应的doc2vec模型，进行全文的文本向量的匹配，得出top n(相似度前几名)的文本向量后提取长文本与top n这些文书里面的‘争议焦点’或‘本院认为’的部分，再进行相应的doc2vec(文本向量)的筛选，从而实现从全文相似的文书里面找到争议焦点相似的文书，图18是‘长文本匹配’效果图。

‘短文本匹配模块’：‘短文本匹配’模块结构图如图9所示，图10是‘短文本匹配’数据流程图，其工作流程如下：短文本匹配的第一步是将这个短文本进行分词、去停用词，然后使用正则匹配的方式去从数据库里面寻找与之相似的文书。利用正则匹配的方式可以得到数据库里所有的文书与当前短文本之间的匹配得分，根据匹配得分可以筛选出top n与之相似的文书。同时我们训练了一个word2vec模型，如图12所示word2vec模型结构图对模型进行大体解释，利用加权求平均的方式求短文本与top n之间的相似度，根据相似度对top n的文书再进行排序，最终得到与短文本案件相似的文书。

Claims

1.一种基于深度学习的法律文书的相似案件智能检索系统，其特征在于，包含以下模块：

(1)文书数据采集及预处理模块：负责法律文书数据的采集和采集后的文书的预处理。通过自行设计爬虫程序从《中国裁判文书网》上爬取，对于爬取的文书中包含html标签的内容，使用相应算法对其进行清洗，数据清洗处理后按照案件类型与案由分类存储成txt格式的文件。

(2)文书数据处理模块：负责进行分类模型训练前的数据的处理。使用fasttext深度学习算法进行分类模型训练前，需要将数据处理成模型输入所需格式，通过将带入到模型训练的文书内容进行分词然后进行所属案件类型的标识，而后才可进行分类模型的训练。

(3)长文本匹配模块：负责对输入的文书或长篇文本进行相似案件推荐。该模块有以下工作内容：1.长文本案件类型，案由类型的判断：将长文本内容带入到训练好的案件类型、案由类型的文本分类模型中，得到输入的长文本相应的案件类型、案由类型。2：相似案件的文本向量匹配：通过获取的长文本的案件类型，带入到通过文本向量模型训练后的全部；类型的法律文书向量，得到同一案件类型的法律文书向量，而后通过长文本的案由类型，进一步缩小相似案件的范围。3：相似争议焦点、本院认为的案件匹配：将长文本以及与其相似的案件带入到相似争议焦点、本院认为的模型中，得到与长文本相似争议焦点、本院认为的案件。

(4)短文本匹配模块：负责对输入的相关的描述进行相似案件的推荐。该模块有以下工作内容：1.关键词匹配打分：在对短文本进行关键词匹配，将短文本切词后进行全部文书的遍历，判断短文本切词后再文书中出现相同词个数以及次数乘积大小。2.Doc2vec匹配：通过关键词匹配打分，遍历完毕后得到短文本与所有文书之间的相似度得分，对结果进行排序，获取top n。3.word2vec匹配：训练基于全部文书的词向量模型，正则匹配相似度前几的文书的争议焦点或本院认为部分，求取正则提取每个词语的向量，再对单词的向量进行加权求平均，通过计算相互之间的距离进一步缩小相似案件的范围。

2.根据权利要求1，类案智能检索系统，其特征在于，所述模块(3)长文本匹配模块的结构具体包括：

(1)文本分类模型：在分类模型训练时，共进行两种分类模型的训练，使用到fasttext深度学习算法，一个分类模型是用于判断法律文书所属的案件类型，另一个模型是进行文书所属案由类型的判断，通过带入预处理后的法律文书数据对案件类型分类模型进行训练，接着对不同案件类型下的案由类型分类模型进行训练得到，完成了5种案件类型的分类模型的训练，将长文本输入，得到文书所属案件类型、案由类型。

(2)文本向量模型：在文本向量模型在长文本匹配模块中此时的作用是用来寻找相似文本，在此使用Doc2vec算法进行两种文章向量模型，一种是基于法律文书进行训练的，第二种是将所有法律文书中‘争议焦点或本院认为’进行正则匹配提出后，基于此进行训练，每个模型的训练都是基于案件类型分别训练了5个模型，在进行模型训练同时需要对文书进行分词处理。

(3)Doc2vec模型：在实现长文本匹配时使用到Doc2vec模型，此时模型的作用是进一步缩小与长文本相似文书的范围，以及在进行争议焦点，本院认为相似判断时其作用也是进一步缩小相似文书的范围。

(4)争议焦点，本院认为向量模型：将预处理后的全部法律文书使用fasttext分类后，使用doc2vec算法，进行提取文书本院认为、争议焦点的模型训练，从而进行输入文书与所在案件类型下所有文书相似度，从相似列表中寻找案由相同的所有文书，进一步缩小相似案件的范围。

3.根据权利要求1，类案智能检索系统，其特征在于，所述模块(4)短文本匹配模块的结构具体包括：

(1)关键词匹配打分：对短文本进行切词后，统计短文本中词语在文书出现个数，以及词语出现总数，两者乘积作为相似得分。

(2)Doc2vec匹配：通过上述的关键词匹配，接着训练全部文书的文本向量模型。

(3)Word2vec匹配：对正则匹配内容使用word2vec模型得到每个词语的向量，加权求平均后匹配争议焦点或本院认为，进一步缩小相似结果的范围。

4.根据权利要求1，类案智能检索系统，其特征在于，所述模块(3)长文本匹配模块的文本分类模型训练的方案具体包括：

(1)算法描述：进行文书分类模型训练时，选用的算法是基于Python的第三方库fasttext算法，结合fasttext算法，根据发明内容作出调整，法律文书类型共有5种，在将文书数据带入模型中，需要针对性进行输入格式改变。

(2)训练方法：文书案件，案由类型的提取模型。

步骤1：将预处理后的文书进行模型输入前的处理，将法律文书正文按照案件类型--->案由方式保存，将全部法律文书进行jieba分词同时加入自己的停用词库与定义词典，将文书内容处理成‘_label_class’的形式。

步骤2：将文书处理完毕后的数据带入到第一个分类模型进行训练，得到提取案件类型的模型，而后按照案件类型的分类，进行第二个分类模型的训练，得到案件类型，提取不同案由的模型。

步骤3：整理两个分类模型，完成案件类型、案由类型分类模型的训练，实现输入未知案件类型，案由类型的长文本，实现判断。

5.根据权利要求1，类案智能检索系统，其特征在于，所述模块(3)长文本匹配模块的文本向量模型训练方案具体包括：

(1)算法描述：使用Doc2vec模型，进行法律文书全文进行训练，基于案件类型分类模型的分类结果对法律文书求文本向量。

(2)训练方法：求全篇法律文书的文本向量模型。

步骤1：对法律文本内容进行jieba分词，将法律文书带入分类模型，得到全部文书的案件类型。

步骤2：将分类模型得到5种案件类型的文书，带入到doc2vec模型中，求得不同案件类型的文书的文本向量。

步骤3：将已知案件类型的长文本带入到文本向量模型中，得到长文本的文本向量，同时得到相同类型下的文书向量。

6.根据权利要求1，类案智能检索系统，其特征在于，模块(3)长文本匹配模块的提取争议焦点，本院认为向量模型训练方案具体包括：

训练方法：提取文本争议焦点、本院认为的向量模型。

步骤1：进行jieba分词，对法律文书数据进行输入模型前的整理，然后带入到fasttext模型后得到不同案件类型。

步骤2：将步骤1的结果带入doc2vec模型中实现文本向量的求取。

步骤3：完成提取争议焦点、本院认为向量模型。

7.根据权利要求1，类案智能检索系统，其特征在于，所述模块(1)文书数据采集及预处理模块具体包括：

(1)将全部法律文书数据按照案件类型-->案由类型方式存储。

(2)对文书进行相应的清洗。