CN110991694A

CN110991694A - 一种基于深度学习的量刑预测方法

Info

Publication number: CN110991694A
Application number: CN201911049086.6A
Authority: CN
Inventors: 李传艺; 葛季栋; 赵一阳; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-04-10

Abstract

本发明公开了一种基于深度学习的量刑预测方法，包括以下步骤：步骤(1)根据案由从裁判文书数据库中提取裁判文书集，构建训练语料，裁判文书预处理，进行分词分句，转化为词向量；相关法条预处理，将法条转化为词向量；提取文书特征信息，使用深度学习和正则表达式结合的方式获取文本特征；进行量刑预测；输出量刑结果和罚金。本发明模拟法官在实际审判过程中，提取文书特征并作证发条以得出量刑预测的真实场景，从文书特征提取入手，说明了一种量刑预测方法。

Description

一种基于深度学习的量刑预测方法

技术领域

本发明涉及量刑建议方法，具体涉及基于深度学习的量刑预测，属于大数据挖掘和深度学习技术领域。

背景技术

裁判文书作为法律审判活动记录的载体，完整反映了当事人主张、举证和质证的客观过程，并全面阐述了裁判结果形成的法律依据、事实证据和推理过程。裁判文书是一类重要的司法数据，截至2019年10月，已有超过7850万份裁判文书被收录并公布于中国裁判文书网。

基于这些司法大数据的研究工作也相继开展，“人工智能+法律”成为热点研究话题。基于自然语言处理和机器学习的语义检索，法律问答，法律援助，在线法院等都将使法律行业的运行方式变得更加智能与高效。

在案件审判过程中，法官需要结合当事人的诉求以及案件的证据与事实，阅读大量的法律法规来选择合适的法律法条作为依据，从而确定案件判决结果。由于成文法繁多，同一个问题可能会出现在不同的法律规范中，因此法官需要阅读大量的法律法规，这一过程通常需要耗费大量的时间和精力。由于这个原因，法院工作中的一些矛盾和问题逐渐显现，其中“同案不同判、法律适用的不统一”便是其中之一，同案同判成为广大公众对法律的诉求。对于案件当事人，在案件咨询与诉讼过程中，他们往往需要支付高昂的律师咨询费来了解案件的情况以及可能的判决结果。

量刑辅助系统的作用主要体现在两个方面。其一，提高法官的工作效率，帮助法官实现同案同判，确保公平正义，另一方面，量刑辅助系统也是一面镜子，可以监督法官判案审案，从一个角度去避免严重的错判漏判。

量刑辅助之于法律，一直是一个非常重要且急迫需要解决的问题。由于裁判文书具有半结构化和半口语化的特点，同时诉讼种类多样，成文法律繁多，裁判文书的表达方法千差万别，仅仅依靠字符层面的分析方式难以取得令人满意的效果，实现智能准确的信息提取和预测分析不仅需要对裁判文书的特点进行分析，还需要从语义的层面出发对裁判文书进行研究在此本发明使用Bi-LSTM模型试图对于法律裁判文书中的涉案信息进行要素提取。我们构建层次型的Bi-LSTM，达到从此到句，再到文章的层次级分析。与此同时，为了针对文书特点进行优化，本方法提出了引入发条辅助分析的方案，使用Attention机制，将法条与事实进行对齐。综上所述，本发明以主题模型算法为基础，裁判文书为数据源，着重研究了一种基于深度学习的量刑预测方法。

发明内容

本发明是一种基于深度学习的量刑预测方法，提供一种裁判文书文本预处理方法，包括从文章到分句，从分句到分词构建层次型结构，并使用预训练的词向量模型对文书中的词语进行转换，使指转化为词向量。同时本方法在模型层次型Bi-LSTM+Attention中引入了法条信息，增加了该方法提取信息的准确度，也提出了一个新的提取裁判文书中文本信息的思路。该方法从语义层面度量文书中嫌疑人的犯罪信息，并根据犯罪信息进行量刑判断，既符合真实情况，又符合人为逻辑。能较好的帮助法官进行量刑辅助的工作，同时也可以较好对法官起到监督的作用。

一种基于深度学习的量刑预测方法，其特征在于包含以下步骤：

步骤(1)根据案由从裁判文书数据库中提取裁判文书集，构建训练语料

步骤(2)裁判文书预处理；

步骤(3)相关法条预处理；

步骤(4)提取文书特征信息；

步骤(5)进行量刑预测；

步骤(6)输出量刑结果和罚金。

本发明与现有技术相比，其显著优点是：首先通过对比实验得出相较于直接处理文书，从文书中提取要素并构成案件特征能更有效地提升量刑预测的效果。在进行裁判文书提取的过程中，使用了正则表达式结合深度学习的方式进行要素提取，对于简单的要素使用正则表达式进行提取，避免了全篇幅使用文书引入其他无关信息的问题，减少无关信息对于要素提取的影响。同时使用深度学习的方法，自动获取特征并提取一些较为复杂，或者表述较为多样化复杂化口语化的信息，在此过程中我们使用了层次型的双向LSTM，可以帮助系统由此到句子再到整篇文中去理解文书事实，获取我们需要的信息。同时为了更准确的提取文书信息，本方法提出尝试引入相关法条，并使用Attention机制来对不同的句子基于不同的注意力，这既符合逻辑思维，也能帮助预测取得更好的效果。同时，在新的文书来到数据库并进行预测时，本方法可以将新的文书纳入训练，为后续文书提供参考

附图说明

图1基于深度学习的量刑预测流程图

图2提取特定的裁判文书段落的正则表达式

图3裁判文书语料提取示例图

图4裁判文书特征提取模型示例图

图5文书转化和特征提取对比图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决法条推荐问题，提出一种基于深度学习的量刑预测方法方法。在进行裁判文书提取的过程中，使用了正则表达式结合深度学习的方式进行要素提取，对于简单的要素使用正则表达式进行提取，避免了全篇幅使用文书引入其他无关信息的问题，减少无关信息对于要素提取的影响。同时使用深度学习的方法，自动获取特征并提取一些较为复杂，或者表述较为多样化复杂化口语化的信息，在此过程中我们使用了层次型的双向LSTM，可以帮助系统由此到句子再到整篇文中去理解文书事实，获取我们需要的信息。同时为了更准确的提取文书信息，本方法提出尝试引入相关法条，并使用Attention机制来对不同的句子基于不同的注意力。并在得到结果后使用回归模型进行预测。本发明概括来说主要包括以下步骤：

步骤(2)裁判文书预处理；

步骤(3)相关法条预处理；

步骤(4)提取文书特征信息；

步骤(5)进行量刑预测；

步骤(6)输出量刑结果和罚金。

上述一种基于深度学习的量刑预测方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.由于诉讼种类繁多，考虑案件的案由可以有效缩小法条推荐的范围，因此首先根据案由从裁判文书数据库中提取裁判文书集，构建训练语料，并支持后续训练。

2.为了从裁判文书中获得与模型训练有关的内容段落，进行分词分句，转化为向量，提高主题模型的训练效果，在步骤2中需要对裁判文书进行预处理。具体步骤是：

步骤(2.1)使用正则表达式从裁判文书中抽取出案件的信息。由于裁判文书具有半结构化的特点，一篇结构完整的裁判文书主要由案件基本情况段、原告诉称段、被告辩称段、证据段、查明事实段、判决结果、判决原因和所引用法律条文等部分组成，不同部分的内容具有不同的可采信度，为了减少噪音数据，提高模型训练的准确性，降低复杂度，需要提取裁判文书中合适的文书段落用于量刑预测。本发明使用正则表达式来提取特定的裁判文书段落，使用的正则表达式如图2所示。

以“民事判决书(20XX)丽刑初字第xxx号”为例，分别提取出裁判文书的案件名称、案由、案件基本信息、引用法律法条列表。提取结果示例如图3所示。

步骤(2.2)中文分句。对于文本我们可以认为是由句子组成，而句子由词语组成，因此本方法也希望构建由词语到句子再到文章的构建方式。因此，我们针对正则表达式匹配到的案件信息，根据逗号，句号，分号等标点符号进行分句。将原始的文书信息转化为句子组信息。

步骤(2.3)中文分词。对已进行分句的句子组使用jieba进行分词。使句子组中的每个句子都转换为单词组，同时去除分词过程中的标点符号空格等信息，以减少噪声出现的概率，由此来提高裁判文书信息提取的结果。

步骤(2.4)构建中文词向量。出于深度学习的需要，本方法要将词语转化为向量。在此我们使用Word2Vec的方法。我们预训练一个词语广泛的Word2Vec模型。使用这个预训练的模型可以对每个句子的词语集合进行转换，将文本上的词语转化为数学上的向量标识。我们预训练的向量维度为300，因为文书中可能存在一些难以理解，或者不常用的词语，在我们预训练的模型中未曾出现。因此在此过程中，如模型中没有与对应词语相匹配的向量，则随机生成一个300维的向量，每个维度的数值均随机在在-0.25到0.2之间浮动，以此向量对此词语进行表示。同时由于句子中的词语数量不同，我们预先设定句子最大长度，即句子中能容纳的的最大词语数量，对句子中词语数量不同的情况，统一进行0填充，使文书信息中的每个句子的词语数量相同。

3.由于本方法需要在进行裁判文书要素提取时使用法条的信息，因此我们从文书中提取法条并进行对应的关系映射和转化。具体步骤包括：

步骤(3.1)抽取相关法条编号，本方法需要从获取法条的相关内容信息。因此本方法首先通过正则表达式提取文书中的法条号，提取模式见图3。

步骤(3.2)获取法条编号和法条的映射关系，根据发条编号从法条中获取相应的法条，供后续训练使用。

步骤(3.3)中文分词，对法条相关内容进行拆解。

步骤(3.4)构建法条向量，在此我们同样使用Word2Vec的方法。使用预训练一个词语广泛的Word2Vec模型。使用这个预训练的模型可以对每个句子的词语集合进行转换，将文本上的词语转化为数学上的向量表示。我们将文书中的每个词语转化为1个300维的向量，并对所有向量进行叠加求平均。作为初始的Attention向量。

4.为了确保公平正义，法官在案件审判过程中，经常需要阅读裁判文书从中找出相应的事实依据来进行定罪量刑。参考这一真实的工作场景，本步骤旨在获得与用户输入的案件基本情况相似的裁判文书集。由于诉讼种类繁多，裁判文书的表达方法千差万别，仅仅依靠字符层面的分析方法无法挖掘案件情况的语义信息。同时本发明也进行了对比实验证明相比通过文书转化的方法，信息提取能更有效地帮助量刑预测。具体效果见图5因此本发明使用正则表达式和深度学习两种方式，来得到文书中所包含的案件信息和特征。具体步骤包括：

步骤(4.1)定义案由提取要素，根据不同案由需要定义不同的提取要素，在此以信用卡诈骗案为例进行说明，在经过文书阅读和一线法官的交流后，本方法定义了如下维度对案件基本情况进行说明：是否自首，是否还款，犯罪类型(恶意透支、伪造信用卡、冒用他人信用卡)，是否有坦白事实，是否为累犯，犯罪嫌疑人的身份信息(未成年、怀孕、老人)，犯罪金额。其中有些信息可通过正则表达式匹配，有些通过正则表达式效果并不优秀，因此我们引入深度学习的方法进行提取。

步骤(4.2)针对上述坦白，累犯、犯罪嫌疑人身份信息等，在裁判文书中进行正则匹配，具体的正则表达式见图2；

步骤(4.3)由于文本中有些信息如自首等通过正则匹配效果能达到的效果有限，因此本方案使用深度学习的方法进行信息提取。将预先处理好的文书分为训练集和测试集，使用训练集进行主题模型的训练，使用测试集进行主题模型效果的评估。训练目标是选择出最优的主题模型数量并获得裁判文书的主题模型。本方法主要使用的模型是层次型Bi-LSTM。LSTMs是RNN的一种变体。RNN(循环神经网络)是一种神经网络结构，主要用于自然语言处理，其在进行处理时会除了会考虑当前输入，还会考虑上一时序的结果，它的具体计算公式是：

h_t＝φ(Ux_t+Wh_t-1+b)

其中U，W，b代表参数需要预先设置，x_t代表输入向量，h_t-1代表前一个状态，φ表示非线性激活函数。可以看到，除了输入向量，模型还会考虑h_t-1的信息。LSTM的基本方式和RNN相同，但是通过引入遗忘门，输入门和输出门来控制对信息的保留和遗忘。从而达到对长期以来有较好的的效果。同时本方法为了增进效果引入了Attention的机制，Attention主要的作用是基于向量不同的权重，因为在现实的案件场景中我们也会更倾向于观察句子中的关键词。这是符合人思考模式的。在本方法中我们引入法条信息作为对齐的参考，使用法条信息辅助输入的文本信息，是计算机自动去识别那些信息是重要的并给予更高的权重，Attention的具体计算公式如下：

a_ij＝exp(e_ij)/(∑e_ik)

e_ij＝a(p，h_j)

p＝φ(Wp’+b)

上述供述p为法条信息，W，b为参数，p的参数会通过反向传播更新优化，e_ij根据法条信息p和裁判文书信息h_j共同决定，a_ij为每个单词的权重，即我们需要给予每个单词的关注程度，C_i为输出我们可以看到C_i是每个单词的加权而得到的结果。

本方法模型初始输入为句子中单词。通过Bi-LSTM和Attention的处理，我们可以得到一个新的向量Z，每一个句子通过本向量均可以得到一个句子向量。我们在把句子向量作为输入投入到同样的神经网络之中，最终通过训练的到一个用于表示文本信息的向量F。而后我们使用softmax分类器对齐进行分类以得到文本的信息。具体模型图详见图4。

步骤(4.4)通过4.2和4.3得到的特征进行合并拼接，合成一个具有是否自首，是否还款，犯罪类型(恶意透支、伪造信用卡、冒用他人信用卡)，是否有坦白事实，是否为累犯，犯罪嫌疑人的身份信息(未成年、怀孕、老人)，犯罪金额信息的特征向量。本向量将用于后续预测。

5.量刑预测。在得到裁判文书的特征信息后，我们需要利用这些信息去进行刑期和罚金的预测。在此我们使用一个全连接的神经网络对其进行回归预测，得到的结果进行评估。量刑预测的步骤具体子步骤包括：

步骤(5.1)输入文书特征向量。

步骤(5.2)使用量刑预测模型预测，在此我们使用一个全连接的量刑预测模型进行预测得到一个预测的刑期和罚金。在此我们使用损失函数来表示预测和实际结果的偏差，具体损失函数如下：

其中n代表的是数据的数量共有n条，y代表的是真实的结果，pre代表的是预测的结果，通过这个函数可以得出具体的平均损失，由于我们预测的结果包括刑期和罚金，因此需要对这两个函数进行相加使其最小。

6.输出量刑结果。

经过上述的流程即可得到计算机对于案件的量刑建议，我们对此结果进行输出。由于案情具有发展性，因此我们希望提供一个范围性的参考，以帮助法官做出更为准确和合理的判断，在此我们以预测为中心扩展出一个平均偏误大小的范围作为最终结果。

上面已经参考附图对根据本发明实施的一种基于深度学习的量刑预测方法方法进行了详细描述。本发明具有如下优点：首先通过对比实验得出相较于直接处理文书，从文书中提取要素并构成案件特征能更有效地提升量刑预测的效果。在进行裁判文书提取的过程中，使用了正则表达式结合深度学习的方式进行要素提取，对于简单的要素使用正则表达式进行提取，避免了全篇幅使用文书引入其他无关信息的问题，减少无关信息对于要素提取的影响。同时使用深度学习的方法，自动获取特征并提取一些较为复杂，或者表述较为多样化复杂化口语化的信息，在此过程中我们使用了层次型的双向LSTM，可以帮助系统由此到句子再到整篇文中去理解文书事实，获取我们需要的信息。同时为了更准确的提取文书信息，本方法提出尝试引入相关法条，并使用Attention机制来对不同的句子基于不同的注意力，这既符合逻辑思维，也能帮助预测取得更好的效果。同时，在新的文书来到数据库并进行预测时，本方法可以将新的文书纳入训练，为后续文书提供参考。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种基于深度学习的量刑预测方法，其特征在于包含以下步骤：

步骤(2)裁判文书预处理；

步骤(3)相关法条预处理；

步骤(4)提取文书特征信息；

步骤(5)进行量刑预测；

步骤(6)输出量刑结果和罚金。

2.根据权利要求1所述的一种基于深度学习的量刑预测方法，其特征在于步骤(1)中根据案由从裁判文书数据库中提取裁判文书集，构建训练语料。

3.根据权利要求1所述的一种基于深度学习的量刑预测方法，其特征在于步骤(2)中裁判文书预处理，具体子步骤包括：

步骤(2.1)使用正则表达式从裁判文书中抽取出案件的信息

步骤(2.2)中文分句。将案件事实信息依照逗号，句号，问号等断句信息进行分句，得到案件信息句子组，以方便后续操作。

步骤(2.3)中文分词。由于我们使用的是层次型的Bi-LSTM，因此需要在分句的基础上在进行分词。在此过程中，我们对案件信息句子组里的每个句子进行分词。是每个句子都转化为多个词语组成的集合。

步骤(2.4)构建中文词向量。出于深度学习的需要，我们要将词语转化为向量。在此我们使用Word2Vec的方法。我们预训练一个词语广泛的Word2Vec模型。并用此模型对每个句子的词语集合进行转换，如模型中没用与词语相匹配的向量，则随机生成一个k维(k为词向量的维度)的值在-0.25-0.25的向量对此词语进行表示。同时为方便后续使用，对句子中词语数量不同的情况，统一进行0填充，使文书信息中的每个句子的词语数量相同。

4.根据权利要求1所述的一种基于深度学习的量刑预测方法，其特征在于步骤(3)中对相关法条预处理，具体子步骤包括：

步骤(3.1)抽取相关法条编号，从裁判文书中利用正则表达式匹配相关法条编号。

步骤(3.2)将法条编号与相关法条映射，获取法条；

步骤(3.3)中文分词，对法条相关内容进行拆解；

步骤(3.4)构建法条词向量。由于我们需要使用Attention技术，我们要将法条转化为向量进行对齐。在此我们同样使用Word2Vec的方法。我们预训练一个词语广泛的Word2Vec模型。并用此模型进行由法条到向量的转换。

5.根据权利要求1所述的一种基于深度学习的量刑预测方法，其特征在于步骤(4)中提取文书特征信息，旨在自动的从事实和裁判文书中提取犯罪嫌疑人的犯罪信息，例如有无自首等，根据这些嘻嘻进行后续判断。具体子步骤包括：

步骤(4.1)定义提取要素，根据不同案由定义不同的提取要素

步骤(4.2)输入裁判文书；

步骤(4.3)对于复杂难以处理的信息，使用Bi-LSTM+Attention的方式进行提取。Bi-LSTM是一种深度学习网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，其中有遗忘门，输入门等用于处理信息的保留和遗忘，同时引入Attention的机制将输入的事实信息去和法条的向量进行对齐。以保证模型可以对于涉案相关信息的关注度更高。Attention是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。

步骤(4.4)对于向对结构简单的信息，使用正则表达式匹配的方式对齐进行处理，用以提取其中的信息

步骤(4.5)输出文书特征向量，将之前提取的信息合并作为新的特征向量输出。

6.根据权利要求1所述的一种基于深度学习的量刑预测方法，其特征在于步骤(5)中根据上一步骤中得到的相似裁判文书集，获取候选推荐法条，计算法条的关联程度，从而提取推荐法条集。具体子步骤包括：

步骤(5.1)获取上一步得到的文书特征向量作为输入

步骤(5.2)建立模型进行回归预测

步骤(5.3)得到刑期和罚金的预测

步骤(5.4)使用频繁项集挖掘的方法，提取推荐法条的关联法条一并作为法条推荐的结果。

7.根据权利要求1所述的一种基于深度学习的量刑预测方法，其特征在于步骤(6)输出推荐法条集。刑期和罚金的差距使用差距绝对值的平均值表示并进行评估。