CN112966072A

CN112966072A - 案件的预判方法、装置、电子装置和存储介质

Info

Publication number: CN112966072A
Application number: CN202110263818.2A
Authority: CN
Inventors: 郭洪飞; 戴源志; 吴之尧; 曾云辉; 何智慧; 朝宝
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-15

Abstract

本申请涉及一种案件的预判方法、装置、电子装置和存储介质，其中，该案件的预判方法包括：获取待预判案件的起诉文本；在起诉文本中抽取预设关键信息，并对关键信息进行数据处理，得到起诉文本对应的多条第一向量信息；利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签，其中，已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率；根据第一分类标签确定案件的预判结果。通过本申请，解决了相关技术中案件预判准确率不高的问题，实现了案件的高效准确预判。

Description

案件的预判方法、装置、电子装置和存储介质

技术领域

本申请涉及辅助司法审判技术领域，特别是涉及案件的预判方法、装置、电子装置和存储介质。

背景技术

随着法律体系不断依托社会现实臻于完善，司法案件的数量也正逐步增加。而像民间借债、合同纠纷案件等案件较为简单，但数量庞大，占用了大量的司法资源，导致法院收案量高速增长，急需提高案件的处理效率。

从原告或者当事人的角度来看，其更想在案件处理前就知道知道自己的胜诉的概率有多大，而胜诉的概率的大小取绝于当事人所提交的起诉状中事实和引用法律的准确性和正确性，所以如果能够正确评估起诉状中的事实和引用法律条文，就能够对该案件的胜诉概率进行量化计算和预判，并且能够以此为基础进行修改起诉状及其中的事实和引用的法律，实现一定程度上基于法律的客观正确的胜诉概率的宏观调控。

在司法审判的过程中，判决书是由很多的事实作为依据，以引用的法律作为准绳，通过法官对当事人的主张进行判断，最后得出审判结果。但是现有的辅助司法审判系统多以文本关键词作为输入直接训练神经网络，缺乏对每一条法律事实和法律分离并判断准确性及正确性的机制，因而预判准确率不高。

目前针对相关技术中对案件预判准确率不高的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种案件的预判方法、装置、电子装置和存储介质，以至少解决相关技术中案件预判准确率不高的问题。

第一方面，本申请实施例提供了一种案件的预判方法，包括：获取待预判案件的起诉文本；在所述起诉文本中抽取预设关键信息，并对所述关键信息进行数据处理，得到所述起诉文本对应的多条第一向量信息，其中，所述预设关键信息包括对所述案件进行判决所依据的法律事实及援引法条对应的文本信息，所述数据处理包括关键信息向量化；利用已训练的案件预判模型处理多条所述第一向量信息，获得多条所述第一向量信息对应的第一分类标签，其中，所述已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，所述分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率；根据所述第一分类标签确定所述案件的预判结果。

在其中一些实施例中，所述第一分类标签包括第一法律事实类别和第一引用准确率，根据所述第一分类标签确定所述案件的预判结果包括：在所述第一分类标签中检测每一条所述第一向量信息对应的所述第一法律事实类别和所述引用准确率；将每个所述第一法律事实类别和所对应的所述第一引用准确率进行加权累乘，得到所述案件所对应的胜诉概率，其中，所述胜诉概率用于表征所述案件基于所述第一法律事实类别所对应的法律事实及所引用的法条进行起诉获胜的预判；在多个所述胜诉概率中选取概率值最高的所述胜诉概率，并确定所述预判结果包括所述概率值最高的所述胜诉概率。

在其中一些实施例中，在所述起诉文本中抽取预设关键信息包括：通过预设分词器对所述起诉文本进行分词处理，得到多个候选文本关键段落，其中，所述预设分词器包括jieba分词器；根据预设关键词在多个所述候选文本关键段落中抽取目标文本关键段落；在所述目标文本关键段落中检测候选法律事实和候选法条对应的第一文本，并通过预设词聚类模型处理所述第一文本，得到所述预设关键信息，其中，所述预设词聚类模型包括Word2Vec模型。

在其中一些实施例中，根据预设关键词在多个所述候选文本关键段落中抽取目标文本关键段落包括：利用预设聚类匹配算法在所述候选文本关键段落中检测预设关键词，其中，所述预设聚类匹配算法包括字符串聚类匹配算法，所述预设关键词至少包括以下其中之一：事实、主张、法条、判决；在所述候选文本关键段落中检测到所述预设关键词的情况下，确定所述候选文本关键段落为所述目标文本关键段落。

在其中一些实施例中，通过预设词聚类模型处理第一文本，得到所述预设关键信息包括：对所述第一文本进行数据预处理，得到候选关键词，其中，所述数据预处理至少包括以下其中一种：词性标注、去重、去除无用符号、去除停用词；遍历所述候选关键词，确定每个所述候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取所述特征相似度小于预设阈值的所述关键词样本作为所述第一文本对应的所述预设关键信息。

在其中一些实施例中，所述特征相似度是以欧式距离确定的；确定每个所述候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取所述特征相似度小于预设阈值的所述关键词样本作为所述第一文本对应的所述预设关键信息包括：通过预设聚类算法计算每个所述候选关键词与预设关键词样本库中的关键词样本的欧式距离，其中，所述预设聚类算法包括K-Means聚类算法；将与所述候选关键词的欧式距离小于预设距离的所述关键词样本作为所述第一文本对应的所述预设关键信息。

在其中一些实施例中，案件的预判方法还包括：构建初始案件预判神经网络模型，其中，所述初始案件预判神经网络模型是基于TextCNN神经网络构建的；获取多份司法判决书、对应于所述多份司法判决书的向量信息训练集以及对应于每份所述司法判决书的实际向量信息；将所述向量信息训练集输入所述初始案件预判网络模型，以对应于每份所述司法判决书的实际向量信息作为监督，更新所述初始案件预判神经网络模型中各网络层的连接权值，得到所述已训练的案件预判模型。

第二方面，本申请实施例提供了一种案件的预判装置，包括：

获取模块，用于获取待预判案件的起诉文本；

预处理模块，用于在所述起诉文本中抽取预设关键信息，并对所述关键信息进行数据处理，得到所述起诉文本对应的多条第一向量信息，其中，所述预设关键信息包括对所述案件进行判决所依据的法律事实及援引法条对应的文本信息，所述数据处理包括关键信息向量化；

分类标签模块，用于利用已训练的案件预判模型处理多条所述第一向量信息，获得多条所述第一向量信息对应的第一分类标签，其中，所述已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，所述分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率；

预判模块，用于根据所述第一分类标签确定所述案件的预判结果。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的案件的预判方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的案件的预判方法。

相比于相关技术，本申请实施例提供的案件的预判方法、装置、电子装置以及存储介质，通过获取待预判案件的起诉文本；在所述起诉文本中抽取预设关键信息，并对所述关键信息进行数据处理，得到所述起诉文本对应的多条第一向量信息，其中，所述预设关键信息包括对所述案件进行判决所依据的法律事实及援引法条对应的文本信息，所述数据处理包括关键信息向量化；利用已训练的案件预判模型处理多条所述第一向量信息，获得多条所述第一向量信息对应的第一分类标签，其中，所述已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，所述分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率；根据所述第一分类标签确定所述案件的预判结果。解决了相关技术中案件预判准确率不高的问题，实现了对法律事实和引用法条准确率的抽离与判断，大大提高了案件预判的准确率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的案件的预判方法的终端的硬件结构框图；

图2是根据本申请实施例的案件的预判方法的流程图；

图3是根据本申请实施例的案件预判模型的构建流程图；

图4是根据本申请优选实施例的案件的预判方法的流程图；

图5是根据本申请实施例的案件的预判装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

在对本申请的实施例进行描述和说明之前，先对本申请中使用的相关技术进行说明如下：

在信息安全领域、数据分析和数据挖掘的过程中，我们经常需要知道个体(样本)间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻(KNN)和K均值(K-Means)。而衡量不同个体差异性，主要是衡量个体之间的相似度差异。最常见的是使用距离度量衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。距离度量中常见的是欧几里得距离，也就是欧式距离，欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。欧式距离计算中，设定样本X、样本Y在向量空间中的位置表示为X(x₁,x₂,x₃,…，x_n)、Y＝(y₁,y₂,y₃,…y_n)。两个样本X和Y在向量空间中的距离通过如下欧式距离计算公式计算：

因为欧式距离计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例，图1是本申请实施例的案件的预判方法的终端的硬件结构框图。如图1所示，终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的案件的预判方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端10的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

本实施例提供了一种运行于上述终端的案件的预判方法，图2是根据本申请实施例的案件的预判方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取待预判案件的起诉文本。

在本实施例中，起诉文本来源于原告或者当事人的起诉状，包括当事人提供的事实、当事人的主张、当事人所援引的法律条文等信息。

步骤S202，在起诉文本中抽取预设关键信息，并对关键信息进行数据处理，得到起诉文本对应的多条第一向量信息，其中，预设关键信息包括对案件进行判决所依据的法律事实及援引法条对应的文本信息，数据处理包括关键信息向量化。

在本实施例中，通过对起诉文本进行处理，得到多条第一向量信息，不仅将文本信息转化为模型可处理的向量数据，同时还将起诉文本中的每一个法律事实和对应引用法条的引用准确率分别转化为一条第一向量信息，从而提高了对案件胜诉率的预判准确率。

步骤S203，利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签，其中，已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率。

在本实施例中，利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签，实现了案件的快速智能判定，提高了工作效率。

步骤S204，根据第一分类标签确定案件的预判结果。

上述步骤S201至步骤S204，通过获取待预判案件的起诉文本；在起诉文本中抽取预设关键信息，并对关键信息进行数据处理，得到起诉文本对应的多条第一向量信息，其中，预设关键信息包括对案件进行判决所依据的法律事实及援引法条对应的文本信息，数据处理包括关键信息向量化；利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签，其中，已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率；根据第一分类标签确定案件的预判结果。解决了相关技术中案件预判准确率不高的问题，实现了对法律事实和引用法条准确率的抽离与判断，大大提高了案件预判的准确率。

需要说明的是，在本实施例中，将司法实践中以“事实为依据，以法律为准绳”的思想融入到案件的预判中，先得到当事人提供法律事实、援引法条的准确率，再综合其结果得到预判的胜诉率，为当事人优化起诉材料等提供了参考，非常具实用性。

在其中一些实施例中，第一分类标签包括第一法律事实类别和第一引用准确率，根据第一分类标签确定案件的预判结果，包括如下步骤：

步骤1、在第一分类标签中检测每一条第一向量信息对应的第一法律事实类别和引用准确率。

步骤2、将每个第一法律事实类别和所对应的第一引用准确率进行加权累乘，得到案件所对应的胜诉概率，其中，胜诉概率用于表征案件基于第一法律事实类别所对应的法律事实及所引用的法条进行起诉获胜的预判。

步骤3、在多个胜诉概率中选取概率值最高的胜诉概率，并确定预判结果包括概率值最高的胜诉概率。

通过上述步骤中的在第一分类标签中检测每一条第一向量信息对应的第一法律事实类别和引用准确率；将每个第一法律事实类别和所对应的第一引用准确率进行加权累乘，得到案件所对应的胜诉概率，其中，胜诉概率用于表征案件基于第一法律事实类别所对应的法律事实及所引用的法条进行起诉获胜的预判；在多个胜诉概率中选取概率值最高的胜诉概率，并确定预判结果包括概率值最高的胜诉概率；实现了对不同法律事实的综合判断，提高了案件预判的准确率。

在其中一些实施例中，在起诉文本中抽取预设关键信息，包括如下步骤：

步骤1、通过预设分词器对起诉文本进行分词处理，得到多个候选文本关键段落，其中，预设分词器包括jieba分词器；

步骤2、根据预设关键词在多个候选文本关键段落中抽取目标文本关键段落；

步骤3、在目标文本关键段落中检测候选法律事实和候选法条对应的第一文本，并通过预设词聚类模型处理第一文本，得到预设关键信息，其中，预设词聚类模型包括Word2Vec模型。

通过上述步骤中的，预设分词器对起诉文本进行分词处理，得到多个候选文本关键段落，其中，预设分词器包括jieba分词器；根据预设关键词在多个候选文本关键段落中抽取目标文本关键段落；在目标文本关键段落中检测候选法律事实和候选法条对应的第一文本，并通过预设词聚类模型处理第一文本，得到预设关键信息，其中，预设词聚类模型包括Word2Vec模型；去除了案件预判模型所不关心的冗余信息，实现了预设关键信息的抽取，从而使得案件预判的准确率更高。

在其中一些实施例中，根据预设关键词在多个候选文本关键段落中抽取目标文本关键段落，包括如下步骤：

步骤1、利用预设聚类匹配算法在候选文本关键段落中检测预设关键词，其中，预设聚类匹配算法包括字符串聚类匹配算法，预设关键词至少包括以下其中之一：事实、主张、法条、判决。

步骤2、在候选文本关键段落中检测到预设关键词的情况下，确定候选文本关键段落为目标文本关键段落。

通过上述步骤中的利用预设聚类匹配算法在候选文本关键段落中检测预设关键词，其中，预设聚类匹配算法包括字符串聚类匹配算法，预设关键词至少包括以下其中之一：事实、主张、法条、判决；在候选文本关键段落中检测到预设关键词的情况下，确定候选文本关键段落为目标文本关键段落；结合起诉文本所包括的当事人提供的事实、当事人的主张、当事人所援引的法律条文等信息，以及法官判决时的法官对事实的认定、法官判决依托的法律条文以及最终判决结果等信息，确定了上述的关键词，实现了目标文本关键段落的抽取，从而使得案件预判的准确率更高。

在其中一些实施例中，通过预设词聚类模型处理第一文本，得到预设关键信息，包括如下步骤：

步骤1、对第一文本进行数据预处理，得到候选关键词，其中，数据预处理至少包括以下其中一种：词性标注、去重、去除无用符号、去除停用词。

步骤2、遍历候选关键词，确定每个候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取特征相似度小于预设阈值的关键词样本作为第一文本对应的预设关键信息。

通过上述步骤中的对第一文本进行数据预处理，得到候选关键词，其中，数据预处理至少包括以下其中一种：词性标注、去重、去除无用符号、去除停用词；遍历候选关键词，确定每个候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取特征相似度小于预设阈值的关键词样本作为第一文本对应的预设关键信息；利用司法文本具有结构固定，形式统一的特点，去除了冗余信息，实现了关键信息的抽取，从而使得案件预判的准确率更高。

在其中一些实施例中，特征相似度是以欧式距离确定的；确定每个候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取特征相似度小于预设阈值的关键词样本作为第一文本对应的预设关键信息，包括如下步骤：

步骤1、通过预设聚类算法计算每个候选关键词与预设关键词样本库中的关键词样本的欧式距离，其中，预设聚类算法包括K-Means聚类算法。

步骤2、将与候选关键词的欧式距离小于预设距离的关键词样本作为第一文本对应的预设关键信息。

通过上述步骤中的预设聚类算法计算每个候选关键词与预设关键词样本库中的关键词样本的欧式距离，其中，预设聚类算法包括K-Means聚类算法；将与候选关键词的欧式距离小于预设距离的关键词样本作为第一文本对应的预设关键信息；实现了将文本信息转化为模型可处理的向量，同时还将起诉文本中的每一个法律事实和对应引用法条的引用准确率分别转化为一条第一向量信息，从而提高了对案件胜诉率的预判准确率。

在其中一些实施例中，案件的预判方法还包括如下步骤：

步骤1、构建初始案件预判神经网络模型，其中，初始案件预判神经网络模型是基于TextCNN神经网络构建的。

步骤2、获取多份司法判决书、对应于多份司法判决书的向量信息训练集以及对应于每份司法判决书的实际向量信息。

步骤3、将向量信息训练集输入初始案件预判网络模型，以对应于每份司法判决书的实际向量信息作为监督，更新初始案件预判神经网络模型中各网络层的连接权值，得到已训练的案件预判模型。

通过上述步骤中的构建初始案件预判神经网络模型，其中，初始案件预判神经网络模型是基于TextCNN神经网络构建的；获取多份司法判决书、对应于多份司法判决书的向量信息训练集以及对应于每份司法判决书的实际向量信息；将向量信息训练集输入初始案件预判网络模型，以对应于每份司法判决书的实际向量信息作为监督，更新初始案件预判神经网络模型中各网络层的连接权值，得到已训练的案件预判模型；实现了对起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率的快速智能获取，提高了工作效率，节省了办案时间。

需要说明的是，在本实施例中，为了便于训练出准确率满足要求的网络模型，训练设备可以创建初始化的网络模型，该网络模型中的模型参数为初始化的参数值，可以随机确定，后续根据样本数据对网络模型进行训练，可以对该网络模型中的模型参数进行调整。

其中，该网络模型可以为卷积神经网络模型、深度学习网络模型、循环神经网络模型、LSTM(Long Short-Term Memory，长短期记忆网络)模型等。为了减少模型训练的时间和降低对训练设备的要求，初始化的网络模型可以采用轻量化的深度网络模型。

以下将介绍案件预判神经网络模型(案件预判模型)的构建与训练方法，图3是根据本申请实施例的案件预判模型的构建流程图，如图3所示，包括以下步骤：

步骤S301，获取不同类型的司法判决书，构建训练集。

步骤S302，对训练集进行抽取预设关键信息和进行数据处理。抽取预设关键信息：从司法判决书中提取当事人提供的事实、当事人的主张、法官对事实的认定、法官判决依托的法律条文以及最终判决结果等关键信息，以法官对事实的认定、法官判决依托的法律条文。并进行词性标注、去重、去除无用符号、去除停用词等数据清洗操作。

关键信息向量化：遍历关键信息中的所有词语(候选关键词)，结合K-Means聚类算法，得到关键信息中各个词语的聚类中心，计算各个聚类的欧几里得距离，将权重前5的词语作为关键词，结合周围词语对这些关键词进行向量化。

步骤S303，构建初始案件预判神经网络模型：

构建基于TextCNN的初始案件预判神经网络模型，该模型由基于1层的TextCNN神经网络模型训练而来的，并且使用Word2Vec算法所提取到的词向量所组成的Embedding层作为模型的输入，对应于其中的卷积层，其使用的卷积核的宽度与输入的文本向量一致，而宽度则作为一个超参数进行人为的设置。

在进行卷积操作之后，还需要进行对隐藏层单元的输出使用Relu激活函数，得到隐藏层输出＝max(0,z)，其中z为卷积计算的结果数据。

为了避免发生过拟合的问题，神经网络模型使用了Dropout算法降低训练样本对特定神经元的过度依赖。同时还使用了Batch normalization算法进行输入数据的归一化处理，将输入数据控制在一定的均值以及方差上，并且依靠其权重的伸缩不变性来设置更大的学习率，进而加速收敛速度，也就是训练速度。

步骤S304，将对训练集进行数据处理后的数据作为模型训练的输入，将案件的评判结果以及专家标注后的事实依据作为对比样本，进行模型的训练，将得到的结果根据设定的超参数使用梯度下降算法，进行反向传播，也就是更新每一个神经元的参数，在完成模型的训练之后，即可实现将事实和将法律分离来分别判断的方法。

下面通过优选实施例对本申请实施例进行描述和说明。

图4是根据本申请优选实施例的案件的预判方法的流程图。如图4所示，该案件的预判方法包括如下步骤：

步骤S401，从中国裁判文书网下载不同类型的已经生效的司法判决书，并对判决书进行分类，构建训练集。

步骤S402，在训练集中抽取预设关键信息，并对抽取的关键信息进行数据处理。

步骤S403，构建基于TextCNN的初始案件预判神经网络模型，并利用对抽取的关键信息进行数据处理后的数据对模型进行训练，得到已训练的案件预判模型。

步骤S404，获取待预判案件的起诉文本。

步骤S405，在起诉文本中抽取预设关键信息，并对关键信息进行数据处理：使用分词算法，对使用了关键字“事实”、“主张”、“法条”、“判决”等的段落及附近段落进行抽取，并对得到的文本进行词性标注、去重、去除无用符号、去除停用词的数据清洗操作，得到起诉文本的关键信息；对关键信息使用基于Word2Vec词聚类方法结合K-Means聚类，得到关键信息中各个词语的聚类中心，计算各个聚类的欧几里得距离，将权重前5的词语作为关键词，结合周围词语对这些关键词进行向量化，得到第一向量信息。

步骤S406，利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签：利用特征矩阵对第一向量信息进行特征提取，得到特征向量，对特征向量使用Relu非线性激活函数进行计算，对计算后的结果进行池化、归一化以及全连接操作，到第一分类标签。

步骤S407，在第一分类标签中检测每一条第一向量信息对应的第一法律事实类别和引用准确率，对每个第一法律事实类别和所对应的第一引用准确率进行加权累乘，将计算得到的结果作为案件的胜诉概率。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。例如，步骤S401与步骤S404、步骤S402与步骤S404、步骤S403与步骤S404。

本实施例还提供了一种案件的预判装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的案件的预判装置的结构框图，如图5所示，该装置包括：获取模块51、预处理模块52、分类标签模块53、预判模块54。

获取模块51，用于获取待预判案件的起诉文本。

预处理模块52，与获取模块51耦合连接，用于在起诉文本中抽取预设关键信息，并对关键信息进行数据处理，得到起诉文本对应的多条第一向量信息，其中，预设关键信息包括对案件进行判决所依据的法律事实及援引法条对应的文本信息，数据处理包括关键信息向量化。

分类标签模块53，与预处理模块52耦合连接，用于利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签，其中，已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率。

预判模块54，与分类标签模块53耦合连接，用于根据第一分类标签确定案件的预判结果。

在其中一些实施例中，第一分类标签包括第一法律事实类别和第一引用准确率，预判模块54用于在第一分类标签中检测每一条第一向量信息对应的第一法律事实类别和引用准确率；将每个第一法律事实类别和所对应的第一引用准确率进行加权累乘，得到案件所对应的胜诉概率，其中，胜诉概率用于表征案件基于第一法律事实类别所对应的法律事实及所引用的法条进行起诉获胜的预判；在多个胜诉概率中选取概率值最高的胜诉概率，并确定预判结果包括概率值最高的胜诉概率。

在其中一些实施例中，预处理模块52用于通过预设分词器对起诉文本进行分词处理，得到多个候选文本关键段落，其中，预设分词器包括jieba分词器；根据预设关键词在多个候选文本关键段落中抽取目标文本关键段落；在目标文本关键段落中检测候选法律事实和候选法条对应的第一文本，并通过预设词聚类模型处理第一文本，得到预设关键信息，其中，预设词聚类模型包括Word2Vec模型。

在其中一些实施例中，预处理模块52用于利用预设聚类匹配算法在候选文本关键段落中检测预设关键词，其中，预设聚类匹配算法包括字符串聚类匹配算法，预设关键词至少包括以下其中之一：事实、主张、法条、判决；在候选文本关键段落中检测到预设关键词的情况下，确定候选文本关键段落为目标文本关键段落。

在其中一些实施例中，预处理模块52用于对第一文本进行数据预处理，得到候选关键词，其中，数据预处理至少包括以下其中一种：词性标注、去重、去除无用符号、去除停用词；遍历候选关键词，确定每个候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取特征相似度小于预设阈值的关键词样本作为第一文本对应的预设关键信息。

在其中一些实施例中，特征相似度是以欧式距离确定的，预处理模块52用于通过预设聚类算法计算每个候选关键词与预设关键词样本库中的关键词样本的欧式距离，其中，预设聚类算法包括K-Means聚类算法；将与候选关键词的欧式距离小于预设距离的关键词样本作为第一文本对应的预设关键信息。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待预判案件的起诉文本。

S2，在起诉文本中抽取预设关键信息，并对关键信息进行数据处理，得到起诉文本对应的多条第一向量信息，其中，预设关键信息包括对案件进行判决所依据的法律事实及援引法条对应的文本信息，数据处理包括关键信息向量化。

S3，利用已训练的案件预判模型处理多条第一向量信息，获得多条第一向量信息对应的第一分类标签，其中，已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率。

S4，根据第一分类标签确定案件的预判结果。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的案件的预判方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种案件的预判方法。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种案件的预判方法，其特征在于，所述预判方法包括：

获取待预判案件的起诉文本；

在所述起诉文本中抽取预设关键信息，并对所述关键信息进行数据处理，得到所述起诉文本对应的多条第一向量信息，其中，所述预设关键信息包括对所述案件进行判决所依据的法律事实及援引法条对应的文本信息，所述数据处理包括关键信息向量化；

利用已训练的案件预判模型处理多条所述第一向量信息，获得多条所述第一向量信息对应的第一分类标签，其中，所述已训练的案件预判模型被训练为用于根据起诉文本的向量信息得到与该起诉文本对应的分类标签，所述分类标签包括该起诉文本对应的法律事实类别及该法律事实所引用法条的引用准确率；

根据所述第一分类标签确定所述案件的预判结果。

2.根据权利要求1所述的案件的预判方法，其特征在于，所述第一分类标签包括第一法律事实类别和第一引用准确率，根据所述第一分类标签确定所述案件的预判结果包括：

在所述第一分类标签中检测每一条所述第一向量信息对应的所述第一法律事实类别和所述引用准确率；

将每个所述第一法律事实类别和所对应的所述第一引用准确率进行加权累乘，得到所述案件所对应的胜诉概率，其中，所述胜诉概率用于表征所述案件基于所述第一法律事实类别所对应的法律事实及所引用的法条进行起诉获胜的预判；

在多个所述胜诉概率中选取概率值最高的所述胜诉概率，并确定所述预判结果包括所述概率值最高的所述胜诉概率。

3.根据权利要求1所述的案件的预判方法，其特征在于，在所述起诉文本中抽取预设关键信息包括：

通过预设分词器对所述起诉文本进行分词处理，得到多个候选文本关键段落，其中，所述预设分词器包括jieba分词器；

根据预设关键词在多个所述候选文本关键段落中抽取目标文本关键段落；

在所述目标文本关键段落中检测候选法律事实和候选法条对应的第一文本，并通过预设词聚类模型处理所述第一文本，得到所述预设关键信息，其中，所述预设词聚类模型包括Word2Vec模型。

4.根据权利要求3所述的案件的预判方法，其特征在于，根据预设关键词在多个所述候选文本关键段落中抽取目标文本关键段落包括：

利用预设聚类匹配算法在所述候选文本关键段落中检测预设关键词，其中，所述预设聚类匹配算法包括字符串聚类匹配算法，所述预设关键词至少包括以下其中之一：事实、主张、法条、判决；

在所述候选文本关键段落中检测到所述预设关键词的情况下，确定所述候选文本关键段落为所述目标文本关键段落。

5.根据权利要求3所述的案件的预判方法，其特征在于，通过预设词聚类模型处理第一文本，得到所述预设关键信息包括：

对所述第一文本进行数据预处理，得到候选关键词，其中，所述数据预处理至少包括以下其中一种：词性标注、去重、去除无用符号、去除停用词；

遍历所述候选关键词，确定每个所述候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取所述特征相似度小于预设阈值的所述关键词样本作为所述第一文本对应的所述预设关键信息。

6.根据权利要求5所述的案件的预判方法，其特征在于，所述特征相似度是以欧式距离确定的；确定每个所述候选关键词与预设关键词样本库中的关键词样本的特征相似度，并选取所述特征相似度小于预设阈值的所述关键词样本作为所述第一文本对应的所述预设关键信息包括：

通过预设聚类算法计算每个所述候选关键词与预设关键词样本库中的关键词样本的欧式距离，其中，所述预设聚类算法包括K-Means聚类算法；

将与所述候选关键词的欧式距离小于预设距离的所述关键词样本作为所述第一文本对应的所述预设关键信息。

7.根据权利要求1所述的案件的预判方法，其特征在于，所述方法还包括：

构建初始案件预判神经网络模型，其中，所述初始案件预判神经网络模型是基于TextCNN神经网络构建的；

获取多份司法判决书、对应于所述多份司法判决书的向量信息训练集以及对应于每份所述司法判决书的实际向量信息；

将所述向量信息训练集输入所述初始案件预判网络模型，以对应于每份所述司法判决书的实际向量信息作为监督，更新所述初始案件预判神经网络模型中各网络层的连接权值，得到所述已训练的案件预判模型。

8.一种案件的预判装置，其特征在于，包括：

获取模块，用于获取待预判案件的起诉文本；

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的案件的预判方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的案件的预判方法。