CN109829055B

CN109829055B - 基于过滤门机制的用户法条预测方法

Info

Publication number: CN109829055B
Application number: CN201910133356.5A
Authority: CN
Inventors: 夏鹏; 严建峰
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2021-03-12
Anticipated expiration: 2039-02-22
Also published as: CN109829055A

Abstract

本发明公开了一种基于过滤门机制的用户法条预测方法。本发明基于过滤门机制的用户法条预测方法，包括：采用双向LSTM网络对案情描述进行编码，将编码后的向量经过一个过滤门结构得到案情描述的高层次表示；利用注意力机制为每一个罪名选择合适的文本特征，将经过最大池化层后的向量与每一个罪名的注意力表示拼接，得到最终用于预测的向量；利用二分类模型，判断每个罪名是否始于该案情描述。本发明的有益效果：在用户法条预测系统中传统的做法通常是人工特征配合经典的文本分类器，这样导致最终法条预测的准确度高度依赖人工特征的好坏，也不具备跨业务预测的通用性，同时传统的做法不能很好的预测相似案情的法条。

Description

基于过滤门机制的用户法条预测方法

技术领域

本发明涉及计算机领域，具体涉及一种基于过滤门机制的用户法条预测方法。

背景技术

人工智能AI技术对建设服务性司法、现代化司法具有重要意义，也是满足人民群众法律需求的重要手段。AI技术在多个领域已经开展了不少实际应用，例如自动驾驶技术、人工智能金融、AI在线翻译等。法律虽然属于社会科学而不是自然科学范畴，但与哲学、社会学等学科不同，具有较强的形式化特征，法律推理的逻辑也比较鲜明，法律的信息也浩瀚繁多，且更新极快，AI迅速处理海量数据的优势使他能够在司法行业中一展优势。人们希望通过机器阅读大量的案件事实，自动给出该案件的适用条款，以提高审判效率。有效地利用这些数据能够减轻业务人员的负担，提高办案效率。同时，也可以对案件审判的质量进行评价，发现法官的习惯性偏差，有利于提高审判质量，保证公正执法。因此，我们可以利用自然语言处理技术，结合深度学习的方法，对于新的法律案件自动产生相应的法条。

法条预测对智能司法系统至关重要，用户可以根据自己的案情寻找是否有相似的案情，或者根据自己的案情找到相应的法律法规，进而来获取关于自己案情的判决依据。这对于帮助那些不了解法律的普通人是很有帮助的。

目前针对法条预测的常规做法就是将其看作一个文本分类的任务，利用数据挖掘和机器学习技术，预测每个法条对应的概率，最后设定一个阈值，大于0.5的则与该案情描述相关。常用的机器学习模型有LR(Logistic Regression，逻辑回归)、RF(RandomForests，随机森林)、GBDT(Gradient Boosting Decision Tree，梯度提升树)、SVM(Support Vector Machine,支持向量机)、DNN(Deep Neural Networks，深度神经网络)以及一些集成学习的方法Bagging和Boosting等。

传统技术存在以下技术问题：

在司法实践中，如果看似相同的案件，裁判结果或标准并不一致，会影响司法的公信力。当然，导致结果不一致的原因很多，有的是案情表面上大体相似，但其中的法律关系本质上不一致，结果适用法律也不一致，同时有些法条之间的差别也不是很明显。例如：从案情描述中区分故意杀人还是故意伤害需要判断嫌疑人是想故意致受害者于死地还是仅仅想伤害她意外造成的死亡。现有的方法无法区分相似案情所对应的法条。

LR(Logistic Regression,逻辑回归)是文本分类常用的机器学习算法，具有理解起来简单，易于并行化和工程化等优点。虽然逻辑回归简单，复杂度相对低，能够处理大量的样本，但它有很明显的缺陷，其属于线性模型，表征能力比较差，特征工程的质量对模型的效果影响巨大，无法学习特征间的非线性关系。该模型常常需要配合交叉特征使用。

RF(Random Forests，随机森林)是另外一个文本分类常用的算法，有多棵决策树构成，具有模型效果好、易于并行化、可解释性强以及应对高维数据的处理能力。但其属于传统机器学习模型，依然得依靠特征工程来获得最好的模型效果。此外，随机森林的模型容量较小，在面对大数据量的情况下无法很好的拟合数据，会出现欠拟合的情况。

随着深度学习技术的快速发展，DNN(Deep Neural Networks，深度神经网络)在工业界被使用地越来越多，其优点就是拟合能力强，在样本量足够的情况下会取得较好的效果。但其结构相对于其他深度学习模型来说过于简单，无法有效自动学习高阶复杂特征。

总的来说，法条预测这项任务中，上述的这些算法都算主流。目前法条预测系统主要的做法是通过对大量裁判文书数据进行分析，人工提取高质量的业务特征，然后选择合适的分类器算法进行预测，获得最终的预测模型。这样主要存在两个问题：首先，人工提取特征需要耗费大量的人力，同时不具备通用性，换个业务场景可能提取特征的方法或者特征的效果就失效了；其次，目前法条预测中使用的主流模型无法处理两个相似案情对应不同法条的情况，建模过程中会丢失数据中隐藏的上下文关键信息，而上下文信息往往可以很好区分案情之间的区别与联系。所以现有的法条预测方法存在过度依赖特征工程以及无法充分挖掘以及理解文本上下文信息。

发明内容

本发明要解决的技术问题是提供一种基于过滤门机制的用户法条预测方法，通过对案情描述数据的简单处理得到基础文本特征，在基础特征基础上训练过滤门模型得到更加抽象的上下文关键信息，同时利用注意力机制从文本中抽取与每一个法条相关的特征。利用上述的最终特征，设计一种基于LSTM(Long Short-term Memory,长短时记忆)的混合模型来处理法条预测问题。这样同时可以保留文本的上下文信息，同时可以得到可以区分相似案情的关键特征。由于基础特征只需要通过简单数据处理操作就可以得到，这样便可以极大减少特征工程量同时具备通用性，同时注意力特征可以起到很好的特征补足作用。此外，设计的混合模型可以充分挖掘基础特征隐藏的上下文信息来提升最终的法条预测效果。

为了解决上述技术问题，本发明提供了一种基于过滤门机制的用户法条预测方法，包括：

采用双向LSTM网络对案情描述进行编码，将编码后的向量经过一个过滤门结构得到案情描述的高层次表示；

利用注意力机制为每一个罪名选择合适的文本特征，将经过最大池化层后的向量与每一个罪名的注意力表示拼接，得到最终用于预测的向量；

利用二分类模型，判断每个罪名是否适于该案情描述。

在其中一个实施例中，具体包括：

LSTM基本单元由细胞状态、输入门、遗忘门以及输出门组成，其中细胞状态是LSTM基本单元关键组成部分，可以保证信息的有效流通；

其中，x_t是当前时刻的输入，h_t-1是上一时刻隐藏状态的输出，C_t-1是上一时刻细胞状态的输出，h_t是当前时刻隐藏状态的输出，C_t是当前时刻细胞状态的输出，f_t是遗忘门，控制哪些信息被丢弃，i_t是输入门，控制哪些信息对细胞状态的更新，o_t是输出门，σ是sigmoid激活函数，各部分的更新公式如下：

f_t＝σ(W_fx·x_t+W_fh·h_t-1+b_f)

i_t＝σ(W_ix·x_t+W_ih·h_t-1+b_i)

o_t＝σ(W_ox·x_t+W_oh·h_t-1+b_o)

h_t＝o_t·tanh(C_t)

其中，W_fx、W_ix、W_cx、W_ox分别是遗忘门、输入门、细胞状态、输出门对输入x的权重，W_fh、W_ih、W_ch、W_oh分别是遗忘门、输入门、细胞状态、输出门对隐藏层h的权重，b_*表示各部分的偏置项；

过滤门是一个简单的全连接神经网络，通过将编码器得到的基础特征向量进一步选择过滤，去除一些冗余信息；过滤门包括两个关键的结构：全连接层和概率计算层；将编码器特征与概率层的概率相计算，最后得到相应的抽象特征；

sGate_i＝σ(W_Sh_i+U_SS+b)

h′_i＝h_i⊙sGate_i

其中S为编码器得到的文本表示，W_S和U_S是权值矩阵，b是网络的偏置向量，σ表示sigmoid激活函数，⊙代表向量元素乘法，h′_i是经过过滤门过滤之后的隐向量；

注意力机制的目的是在训练过程中，让模型知道输入数据哪一部分信息是重要的，从而使模型高度关注这些信息；采用注意力机制从案情文本中选择相关信息，从而得到不同罪名对应的文本表示；

将经过过滤门后的隐向量h′＝(h′₁,h′₂,...,h′_n)作为注意力机制的输入；对于所有的罪名，利用注意力机制计算得到注意力权重α＝(a₁,a₂,...,a_k)，其中k是罪名的数量，

a_i,j定义为：

其中，u_i表示第i个罪名对应的上下文向量，用来计算每一个隐向量包含多少信息与第i个罪名相关，W^a是所有罪名共享的权值矩阵；通过加权计算得到每一个罪名对应的文本表示g＝(g₁,g₂,...,g_k)，其中g_i＝(∑_ta_i,th′_t)；

将罪名预测任务看作多个二分类任务，判断每个罪名是否属于相应的案情文档；根据变换后的文本表示预测相应的罪名p＝(p₁,p₂,...,p_k)，其中p_i∈{0,1}；

首先，将过滤门计算之后的隐层向量

输入到一个最大池化层(max-pooling)中，得到没有经过注意力机制计算的文本表示向量e＝[e₁,e₂,...,e_s]；其中，

其次，将最大池化后的文本向量e与每一个罪名的注意力表示向量g拼接，得到最终输出层的表示向量z＝(z₁,z₂,...,z_k)：

最后，将softmax层作为输出层来获得罪名的预测结果p＝(p₁,p₂,...,p_k)：

p_i＝argmax(s_i)

这里，s_i表示预测结果为{0，1}的概率分布，W_i ^p和b_i ^p分别表示第i个罪名的权值矩阵和偏置量。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

在用户法条预测系统中传统的做法通常是人工特征配合经典的文本分类器，这样导致最终法条预测的准确度高度依赖人工特征的好坏，也不具备跨业务预测的通用性，同时传统的做法不能很好的预测相似案情的法条。所以，本发明提出的利用过滤门机制和注意力机制的模型，可以有效得到区分相似案情的关键特征，这样一方面可以从特征层面提升预测效果，另一方面这种方法可以免去人工提取特征的麻烦，可以应用到其他业务场景中。同时，本发明提出基于LSTM混合模型，可以充分挖掘文本数据特征中的隐藏序列信息以及将文本信息中关键信息有效提取出来，从模型层面提高预测效果。

附图说明

图1是本发明基于过滤门机制的用户法条预测方法中的LSTM基本单元结构示意图。

图2是本发明基于过滤门机制的用户法条预测方法的流程图。

图3是本发明基于过滤门机制的用户法条预测方法中的混合模型结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明首先采用双向LSTM网络对案情描述进行编码，将编码后的向量经过一个过滤门结构得到案情描述的高层次表示，其次利用注意力机制为每一个罪名选择合适的文本特征，将经过最大池化层后的向量与每一个罪名的注意力表示拼接，得到最终用于预测的向量。最后，利用二分类模型，判断每个罪名是否适于该案情描述。

LSTM是循环神经网络的一种，较好的缓解了循环神经网络存在的梯度弥散或者梯度爆炸导致模型无法正常更新的问题，在语音识别、自然语言处理、时间序列预测等领域应用很广。LSTM基本单元由细胞状态、输入门、遗忘门以及输出门组成，其中细胞状态是LSTM基本单元关键组成部分，可以保证信息的有效流通。具体结构如图1所示。

f_t＝σ(W_fx·x_t+W_fh·h_t-1+b_f)

i_t＝σ(W_ix·x_t+W_ih·h_t-1+b_i)

o_t＝σ(W_ox·x_t+W_oh·h_t-1+b_o)

h_t＝o_t·tanh(C_t)

其中，W_fx、W_ix、W_cx、W_ox分别是遗忘门、输入门、细胞状态、输出门对输入x的权重，W_fh、W_ih、W_ch、W_oh分别是遗忘门、输入门、细胞状态、输出门对隐藏层h的权重，b_*表示各部分的偏置项。

过滤门是一个简单的全连接神经网络，通过将编码器得到的基础特征向量进一步选择过滤，去除一些冗余信息。过滤门包括两个关键的结构：全连接层和概率计算层。将编码器特征与概率层的概率相计算，最后得到相应的抽象特征。

sGate_i＝σ(W_Sh_i+U_SS+b)

h_i ^′＝h_i⊙sGate_i

其中S为编码器得到的文本表示，W_S和U_S是权值矩阵，b是网络的偏置向量，σ表示sigmoid激活函数，⊙代表向量元素乘法，h′_i是经过过滤门过滤之后的隐向量。

注意力机制的目的是在训练过程中，让模型知道输入数据哪一部分信息是重要的，从而使模型高度关注这些信息。采用注意力机制从案情文本中选择相关信息，从而得到不同罪名对应的文本表示。

将经过过滤门后的隐向量h′＝(h′₁,h′₂,...,h′_n)作为注意力机制的输入。对于所有的罪名，利用注意力机制计算得到注意力权重α＝(a₁,a₂,...,a_k)，其中k是罪名的数量，

a_i,j定义为：

其中，u_i表示第i个罪名对应的上下文向量，用来计算每一个隐向量包含多少信息与第i个罪名相关，W^a是所有罪名共享的权值矩阵。通过加权计算得到每一个罪名对应的文本表示g＝(g₁,g₂,...,g_k)，其中g_i＝(∑_ta_i,th′_t)。

将罪名预测任务看作多个二分类任务，判断每个罪名是否属于相应的案情文档。根据变换后的文本表示预测相应的罪名p＝(p₁,p₂,...,p_k)，其中p_i∈{0,1}。

首先，将过滤门计算之后的隐层向量h′＝(h′₁,h′₂,...,h′_n)输入到一个最大池化层(max-pooling)中，得到没有经过注意力机制计算的文本表示向量e＝[e₁,e₂,...,e_s]。其中，

s_i＝softmax(W_i ^pz_i+b_i ^p)

p_i＝argmax(s_i)

本发明的总体流程图2所示：

图2中的案情描述是由用户输入的数据构成，一般来说，案情描述数据由不同词组成一篇文档，基础特征生成主要是利用LSTM网络自动计算得到上下文时序特征。通过过滤门结构和注意力机制可以得到关于法条的不同特征以及去除不相关的冗余特征，利用深度网络自动提取特征这一特点，可以适用于不同应用场景。

一篇案情描述的文本可以看成是由一系列短语组成的序列x＝(x₁,x₂,...,x_n)，其中n代表文档中短语的数量(x_i∈T,T为一个固定的词表)。给定一个案情描述，预测对应的集合为Y＝(y_i,y_j,...,y_l)其中i、j、l是离散的(y_k∈Y,Y为对应的法条集合，k为集合中的索引)。具体模型图如下：

在图2中，法条预测模型的输入由一个个词语组成的文本数据。将基础时序特征按照不同时间输入到模型中。经过LSTM计算后得到不同时间的上下文向量，经过过滤门之后，过滤掉一些冗余的上下文特征，同时利用注意力机制，将与相关法条有关的特征提取出来，最后将过滤门结构的特征最大池化得到最终文本相关特征，与相关法条的关键特征拼接，预测最终案情描述对应的法条结果。

在图2中，最终整个用户法条预测系统会根据混合模型输出的概率结果进行排序，输出每一个法条的概率，表示这些法条有多大的概率和案情相关，最终取大于0.5的法条作为最终与案情相关的法条。

通过对相关裁判文书中提取出的案情描述进行模型训练，同时与传统文本分类方法进行对比，采用宏平均精确率(Macro-Precision)、宏平均召回率(Macro-Recall)、宏平均F1值(Macro-F1)、微平均精确率(Micro-Precision)、微平均召回率(Micro-Recall)以及微平均F1值(Micro-F1)作为实验性能的评价指标，

为了充分对比本文提出的模型与其他文本分类模型的优越性，采用了一些典型的文本分类模型作为基准模型：

TFIDF+SVM：本文使用Salton等人提出的文档频率和逆文档频率(TFIDF)的方法提取大小为2,000的文本特征作为输入，并且使用Suykens等人提出的SVM模型作为分类器。

CNN：2014年，Kim第一次提出使用CNN作为文本分类模型，本文采用多卷积窗口(1,2,3)的CNN作为文本分类模型。同时，为了保证实验的公平，在CNN最后一层加一个全连接网络(CNN-200)，将得到的特征进行降维后再预测相应的罪名。

LSTM：该方法于1997年由Hochreiter等人提出，能很好地处理时序或者文本数据。本文构建了一个两层的LSTM网络以及使用了最大池化方法来得到文本的编码向量。

Fact-Law Attention Model：Luo等人在2017年提出的一种基于多注意力机制的混合模型，结合了句子以及文档编码器，同时加入了相关法条文本辅助预测。

在各项指标上，本发明都有明显改善，具体结果如下：

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于过滤门机制的用户法条预测方法，其特征在于，包括：

利用二分类模型，判断每个罪名是否适于该案情描述；

具体包括：

f_t＝σ(W_fx·x_t+W_fh·h_t-1+b_f)

i_t＝σ(W_ix·x_t+W_ih·h_t-1+b_i)

o_t＝σ(W_ox·x_t+W_oh·h_t-1+b_o)

h_t＝o_t·tanh(C_t)

sGate_i＝σ(W_Sh_i+U_SS+b)

h′_i＝h_i⊙sGate_i

a_i,j定义为：

首先，将过滤门计算之后的隐层向量h′＝(h′₁,h′₂,...,h′_n)输入到一个最大池化层中，得到没有经过注意力机制计算的文本表示向量e＝[e₁,e₂,...,e_s]；其中，

p_i＝argmax(s_i)

这里，s_i表示预测结果为{0，1}的概率分布，W_i ^p和

分别表示第i个罪名的权值矩阵和偏置量。

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。