CN110717843A

CN110717843A - 一种可复用的法条推荐框架

Info

Publication number: CN110717843A
Application number: CN201911009434.7A
Authority: CN
Inventors: 李传艺; 葛季栋; 冯奕; 黄云云; 周晓松; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-21

Abstract

本发明公开了一种可复用的法条推荐框架，包括以下步骤：提取裁判文书集构建训练语料；对裁判文书进行预处理，包括抽取出案件基本情况段落和引用法条列表，对案件基本情况进行中文分词，学习案件基本情况的向量表示模型，构建法条推荐任务的输出空间以及学习法条的语义向量模型；对用户输入的案件情况进行预处理；设计多标签分类模型对法条集进行预排序获得候选推荐法条集；对候选推荐法条集进行二次排序，获得最终推荐结果；输出推荐法条列表。本发明模拟给定案件基本情况筛选相关法条进行引用的真实场景，额外考虑法条自身的语义信息、法条与法条之间的关联进行法条推荐，通过再排序策略优化推荐结果，提高了法条推荐的准确性。

Description

一种可复用的法条推荐框架

技术领域

本发明涉及一种法条推荐框架，具体涉及一种可复用的法条推荐框架，属于自然语言处理领域。

背景技术

近年来，人民法院信息化建设迈出了跨越式步伐，现代科技与法院工作愈发深度融合，信息时代审判运行新模式正在逐步形成。审判结果预测作为人工智能在法院信息化建设过程中的一个成功应用，吸引了众多研究学者的关注，其目标在于自动、高效且准确地预测案件的指控罪名、案件引用的法律法条等一系列审判结果。

在案件的裁决过程中，法官通常需要完寻找合适的法律法条作为审判依据。在这一过程中，一方面，鉴于法条总数之多，针对每一个案件寻找几条甚至是确切的某一条法条是一项庞大且困难的工作；另一方面，每天发生的案件数量之多也使得为数不多的法官分身乏力，面对频繁发生的案件类型，重复相似的过程以寻找合适法律条文是很容易让人感到疲乏的；相反，如果案件情况很复杂，就需要消耗大量的时间和精力去分析案件过程以寻得合适的法条。而对于那些牵扯案件或面对法律问题却缺乏相关法律专业知识的普通群众而言，他们则需要寻找专业的法律顾问来解决问题，这一过程需要花费大量的时间与金钱。这时，法条推荐的作用便突显出来了。一个优秀的法条推荐系统就既可以提高法官的工作效率与准确性，也能给普通群众带来极大的便利。

在自然语言处理领域中，深度神经网络的特征抽取功能之强大在自然语言的语义抽取方面取得了重大突破，推动着相关研究工作的飞速发展，众多研究学者也对基于神经网络的法条推荐方法做出了各类研究，但大多数方法都仅局限于关注案件和各个法条之间的联系。事实上，某些法条常会被同时引用，而它们在法律意义上是相辅相成的。其次，在分类框架下，内容丰富的法条仅被当作标签，这是对法条自身所蕴含的语义的忽视。另外，在案件基本情况的描述文本中，隐含丰富信息的案件描述词汇一般会直接影响到预测结果。因此，在做法条推荐的时候，我们可以通过更多地关注这些关键词以达到更好的预测结果。综上，本发明基于深度神经网络框架，结合上面提及的应当考虑提取的文本语义，以裁判文书为数据源，着重研究了一种可复用的法条推荐框架。

发明内容

本发明是一种可复用的法条推荐框架，研究了一种基于深度神经网络的法条推荐方法，包括一个循环神经网络结构与最大池化层的结合架构、一种利用注意力机制自动关注案件描述文本中的关键词以生成准确上下文向量的方法、一个学习法条语义表示的神经网络算法以及一个提取法条之间关联并对它们进行二次排序的解码器-编码器框架。该框架能着重关注案件基本情况描述文本中的关键词，结合法条自身的语义信息，生成案件基本情况的语义表示向量，捕获案件基本情况与法条之间、法条与法条之间的多重关联，并以此为依据，进行法条推荐。以上思想符合真实情况下，法官或普通群众基于案件基本情况获取相应法条的场景。最后，本发明所设计的推荐框架是可复用的，适用于其它主题的推荐场景。

本发明所述的一种可复用的法条推荐框架，其特征在于包含以下步骤：

步骤(1)从中国裁判文书网中随机提取裁判文书集，构建训练语料；

步骤(2)裁判文书预处理；

步骤(3)用户输入预处理；

步骤(4)法条集预排序；

步骤(5)提取推荐法条集；

步骤(6)输出推荐法条列表。

2.根据权利要求1所述的一种可复用的法条推荐框架，其特征在于步骤(1)中从中国裁判文书网中随机提取裁判文书集，构建训练语料。

3.根据权利要求1所述的一种可复用的法条推荐框架，其特征在于步骤(2)中裁判文书预处理，具体子步骤包括：

步骤(2.1)使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表；

步骤(2.2)将案件基本情况段落进行中文分词，转化成由词汇组成的列表，同时得到语料库包含的所有词汇的集合；

步骤(2.3)去停用词。首先构建法律专有停用词列表，其内容包括：连词、介词一类的常用停止词；时间、地点、人名一类的专有名词；频繁出现在裁判文书中但对区别具体案件没有实际作用的法律专有词汇。接着去除整个数据集中的所有停用词；

步骤(2.4)学习案件基本情况的词向量表示模型。基于以上步骤获取的语料词汇集合，利用Word2vec模型训练得到案件基本情况的词向量表示模型；

步骤(2.5)构建法条推荐任务的输出空间。将训练语料中每一篇裁判文书引用的法条合并起来，从中挑选频次相对较高的法条构成该任务的输出空间；

步骤(2.6)学习法条的语义向量模型。学习一个关于案件基本情况的语言模型，以一篇案件基本情况中的上下文词汇及其所引用的法条为输入，预测对应的中心词汇。通过不断优化该模型的预测效果，同时学习得到了法条的语义向量模型。

4.根据权利要求1所述的一种可复用的法条推荐框架，其特征在于步骤(3)中对用户输入的案件基本情况进行预处理，具体子步骤包括：

步骤(3.1)中文分词；

步骤(3.2)去除法律专有停用词；

步骤(3.3)将案件基本情况转化为固定大小的词向量表示。

5.根据权利要求1所述的一种可复用的法条推荐框架，其特征在于步骤(4)中将案件基本情况转换为语义表达，并以此为依据对输出空间中的所有法条进行预排序。具体子步骤包括：

步骤(4.1)训练法条集的预排序模型。该模型以词向量表示的案件基本情况为输入，首先通过双向GRU捕捉案件基本情况的时序信息，得到一个中间向量；接着分别通过注意力机制和最大池化层得到了两个关于案件基本情况的不同层面的语义表示向量；最后基于一个全连接神经网络结合注意力向量和最大池化向量的语义信息得到输出空间中所有法条的概率值。基于训练语料不断对该模型进行训练，训练目标是让被引用的法条经模型计算得到的概率尽可能的大；

步骤(4.2)使用上述训练好的预排序模型根据用户输入的案件基本情况，按照每个法条的被引用概率降序排序，选择前K1个法条组成候选推荐法条集，等待进一步处理。

6.根据权利要求1所述的一种可复用的法条推荐框架，其特征在于步骤(5)中根据上一步骤所得的候选推荐法条集，结合法条自身的语义信息、法条与案件基本情况间的关联、法条与法条之间的语义关联进一步排序，提取最终的推荐法条集。具体子步骤包括：

步骤(5.1)训练针对候选推荐法条集的二次排序模型。该步骤中的排序采用了编码器-解码器的框架：首先基于案件基本情况的词向量和K1个候选推荐法条的语义向量，经过LSTM编码，得到一个带有丰富语义表示的上下文向量；以该向量为解码器的初始向量，解码器的每一步以上一步的输出向量和隐藏层向量为输入，依次输出一个维度为K1的向量，每个维度对应一个候选推荐法条的概率；最终基于贪心思想进行排序，每一步都选择概率值最大的法条作为当前时间步的输出结果。该过程以依次输出正确引用的法条为训练目标，基于训练语料不断进行训练。

步骤(5.2)使用预训练的法条语义向量模型对在步骤(4)中的得到的K1个候选推荐法条进行编码；

步骤(5.3)使用上述训练好的模型，根据用户输入的案件基本情况和编码后的候选推荐法条集，按照每个时间步法条被输出的先后顺序重新进行排序，取前K2个法条作为最终法条推荐的结果。

7.根据权利要求1所述的一种可复用的法条推荐框架，其特征在于步骤(6)输出推荐法条集。法条推荐的效果采用准确率、召回率、F1值、错误率和覆盖率依照框架分成两部分依次进行评估。

本发明与现有技术相比，其显著优点是：结合循环神经网络与卷积神经网络的架构优势，更精准地提取序列文本潜在的语义信息；对于案件基本情况描述文本中的关键词在生成上下文向量时给予更高的权重，符合关键词在法条推荐中起关键作用的真实情况；对法条自身蕴含的语义信息进行编码，增强案件基本情况与法条间的语义关联；将多个法条的内部关联纳入法条的推荐依据，提升了推荐结果的准确性、完整性。总而言之，该框架深度结合了法条推荐任务中的语义信息，符合现实中根据案件基本情况寻找相应法条的场景。同时，该框架适用于其它的推荐任务，具有一定的复用性。

附图说明

图1可复用的法条推荐框架流程图

图2裁判文书示例图

图3提取特定的裁判文书段落的正则表达式

图4基于神经网络的法条嵌入表示模型生成方法

图5多标签分类模型结构

图6基于编码器-解码器框架的再排序方法

图7多标签分类模型的对比试验结果(K1＝10)

图8不同K1、K2值对应再排序推荐效果的实验对比结果

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决法条推荐问题，提出了一种可复用的法条推荐框架方法。这是一个基于深度神经网络的两阶段框架模型。通过结合双向GRU与最大池化层，充分利用了循环神经网络和卷积神经网络的优势，在捕获文本序列信息后，基于全局进一步提取案件基本情况的文本描述中潜在的语义信息；通过注意力机制使得模型自动关注案件基本情况篇章中的关键词，生成了一个精确概括文本信息的上下文向量；通过一种学习法条嵌入表示模型的神经网络算法，捕捉法条之间的语义联系，从而将法条自身蕴含的丰富语义纳入法条的推荐依据范围之内；此外，还利用了一个编码器-解码器框架，结合案件基本情况的语义信息、法条自身的语义信息、案件基本情况与法条之间的语义关联，法条与法条之间的基本联系作为最终推荐的依据。总而言之，该框架分为预推荐与最终推荐两个阶段，同时考虑多个影响推荐的因素，符合真实场景下完成法条推荐任务的实际情况，同时满足法官与普通群众寻找案件相关法条依据的基本需求。本发明概括来说主要包括以下步骤：

步骤(2)裁判文书预处理；

步骤(3)用户输入预处理；

步骤(4)法条集预排序；

步骤(5)提取推荐法条集；

步骤(6)输出推荐法条列表。

上述一种可复用的法条推荐框架的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.为了设计一个具有普适性而非针对某些特定案件的学习模型，从而生成一个能够普遍预测各种类型的案件的分类器，在步骤1中需要从中国裁判文书网随机挑选分别属于不同刑事案件类型的裁判文书构成训练语料。

2.为了从裁判文书中获得与模型训练有关的内容段落，确定预测目标，同时便于模型后期对各类文本隐含的语义及文本间的潜在联系的提取，在步骤2中需要对裁判文书进行预处理。具体步骤是：

步骤(2.1)使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表。鉴于裁判文书属于半结构化文本，一些常用的短语和句子标志着案件不同部分的开始，如图2所示，标记出的“经审理查明”、“本院认为”、“依照……判决如下”这些文本分别对应裁判文书的“案件基本情况”、“审判分析”、“法条”三个部分。我们将分别使用图3所列出的两个正则表达式匹配事实描述训练所需的案件基本情况和引用的法条。

步骤(2.2)中文分词。由于单个中文语句中各字符间没有空格，我们需要将各字符切割为单词，从而将语句转化为单词序列，同时获得整个语料库的词汇集合。

步骤(2.3)去停用词。经过分词得到的单词序列中存在一些常见但对最终预测没有太大用处的单词，为了更高效的进行语义提取，需要将这一类单词从单词序列中剔除。尽管网络上存在很多成熟且完整的停用词列表，但是由于裁判文书中存在大量“原告”、“被告”、“当事人”一类的专业术语，一般的停用词列表对裁判文书并不适用。因此，我们构建了一个法律专有停用词列表，其内容包括：连词、介词一类的常用停止词；时间、地点、人名一类的专有名词；频繁出现在多数裁判文书中但对区别具体案件没有实际作用的法律专有词汇。基于已构建的法律专用停用词列表，去除整个数据集中的所有停用词。

步骤(2.4)学习案件基本情况的词向量表示模型。基于去除停用词后的词汇集合，经由Word2vec，每个单词学习到了一个固定大小的向量表示，这个预训练得到的词嵌入模型可以同时反映文本蕴含的语法信息和语义信息。

步骤(2.5)构建法条推荐任务的输出空间。将训练语料中的不同裁判文书引用的法条合并起来，从中挑选频次相对较高的法条构成该任务的输出空间；

步骤(2.6)学习法条的语义向量模型。在将法条推荐问题视为分类模型的背景下，很容易由于将各法条视为分类目标而忽视法条自身蕴含的丰富语义信息，本发明受到Doc2Vec模型的启发，构建了一个关于案件基本情况的语言模型Statute2Vec。给定裁判文书的上下文及其引用的法条，该模型可以完成对中心词的预测。在训练该模型时，法条表示向量的优化过程就是法条自身语义表示的不断学习过程。因此，我们将训练语料中的裁判文书表示为{s₁，…，s_m，w_t-l，…，w_t+l}，其中s表示引用的法条，w表示案件基本情况中的各个单词。在该模型中，所有会被引用的法条构成了矩阵S，所有的单词向量组成了矩阵W。所有的法条向量与单词向量经过平均或者连接得到一个中间向量用于中心词的预测。整个模型的框架如图4所示，训练目标时最大化中心词预测的平均对数概率，计算公式如下：

训练完成后得到的矩阵S便是需要的法条语义表示模型。

3.为了去除用户输入的案件基本情况中存在的噪声数据，需要对用户输入的案件基本情况进行预处理，其过程与对训练语料中案件基本情况的处理基本一致。具体步骤包括：

步骤(3.1)中文分词；

步骤(3.2)去除法律专有停用词；

步骤(3.3)将案件基本情况通过以上步骤得到的词嵌入模型转化为固定大小的词向量表示。

4.该步骤作为法条推荐的第一阶段，将法条推荐视为一个多标签分类问题，即先将案件基本情况转换为语义表达，再以此为依据寻找多个相关法条，从中挑选K1个构成候选推荐法条集。具体步骤包括：

步骤(4.1)训练法条集的预排序模型。考虑到循环神经网络捕获序列时序信息的能力，首先，以向量表示的案件基本情况为输入，通过一个双向GRU，得到每个时间步下的隐藏单元值h_t，然后利用参数矩阵Ww来衡量不同时间步的重要性，即通过公式u_t＝tanh(W_wh_t+b_w)进一步计算；然而，这样的上下文向量缺少强调不同关键词在最终预测中的重要性，因此引入注意力机制计算得到一个对句子中不同词语给予不同关注度的上下文向量，该计算过程如下：

d_i＝∑_tα_tu_t

其中，W_a为模型中要训练的参数，d_i表示第i篇案件基本情况描述文本的上下文向量。

另一方面，为了捕获文本全局上的语义信息，丰富上下文向量的内涵，该模型利用卷积神经网络的优势，通过一个最大池化层在隐藏单元的基础上进一步捕捉信息，从而得到了一个最大池化向量，其计算如下：

以上得到的两个向量从不同角度捕获了案件基本情况的语义信息，将它们放入一个全连接神经网络中，输出层与整个框架输出空间中的法条一一对应，即每一个输出神经元代表一个法条的预测概率。上述过程如图5所示。基于训练语料，不断对该模型进行训练，训练目标是最小化以下计算交叉熵的损失函数：

其中，n表示训练样本的个数，

在第i个案件真实引用了第j条法条的时候值为1，否则为0；

表示上述模型预测得到的第i个案件引用第j条法条的概率。

步骤(4.2)使用上述训练好的预排序模型根据用户输入的案件基本情况，按照每个法条预测的被引用概率降序排序，选择前K1个法条做进一步预测，K1的值由训练语料中每个案件所引用的平均法条数决定。

5.以上分类过程只考虑了案件与单个法条间的关联，忽略了法条与法条之间的关系。现实情况下，某些法条常会同时被引用，这些法条在法律意义上是相辅相成的。此外，通过利用法条自身蕴含的语义信息可以增强模型对案件与法条间关联的捕获能力。因此根据上一步骤所得的候选推荐法条集，接下来将结合法条自身语义、法条与案件基本情况间的深度关联、法条与法条之间的语义关联进一步排序，提取最终的推荐法条集。具体子步骤包括：

步骤(5.1)训练针对候选推荐法条集的二次排序模型。该步骤采用了一个全新的基于编码器-编码器框架的排名方法：给定候选推荐法条序列s₁，s₂，…，s_K1，目标是寻找最佳顺序s_1*，s_2*，…，s_K1*，使其符合对应案件引用法条的真实情况，其思想如图6所示。首先，将案件基本情况和经过预排序得到的K1条法条分别编码成向量，并将它们拼接起来通过LSTM编码成一个上下文语义向量，即c_i＝LSTM(s₁，s₂，…，s_K1，X_i)。解码器部分依旧通过LSTM，以c_i作为解码器的初始状态，以前一个时间步的状态和输出为输入，得到当前时间步的输出，即o_t＝LSTM(e_t-1，o_t-1)。其中o_t的维度被设置为K1，其第j个值

(j∈[1，K1])表示对应法条s_j的概率。接下来采用贪心思想，在第t个解码时间步下，选择当前概率值最大的法条输出。最终选择K2个排序位置靠前的法条作为最终推荐结果。该模型计算条件概率的公式如下：

其中，X_i表示第i个案件的基本情况，θ是该模型的参数。该模型基于训练语料通过以下训练目标进行学习：

步骤(5.2)使用步骤(2.6)预训练所得的法条语义向量模型对在步骤(4.2)中的得到的K1条候选推荐法条进行编码；

6.提取推荐法条集。

本发明法条推荐效果的评估根据模型框架，分为两个部分：一是对比法条推荐相关的经典的基准模型，对第一阶段的多标签分类模型做对比实验，二是通过设置K1、K2的数值大小，观察再排序对推荐效果的影响。在评价指标方面，本发明倾向于利用基于案件的评价指标对法条推荐的效果进行评估，除了用到传统的准确率、召回率、F1值之外，还用到了错误率和覆盖率对本发明第一阶段的分类效果进行更全面的衡量，其中错误率计算的是模型预测的具有最大概率值的法条在真实场景下是否被引用，而覆盖率计算的是排序后的法条序列完全覆盖所有正确法条的步数。

实验中，本发明针对从中国裁判文书网中随机提取的39900个包含多种案件类型的刑事案件进行实验，用于对比本发明所采用的多标签分类模型的法条推荐效果的基准模型包含如下：基于TF-IDF的词袋模型，具体包括通过余弦距离计算特征空间下文本相似度的Cosine Distance_TF-IDF(CD_TF-IDF)模型、基于支持向量机和神经网络通过训练分类器进行推荐的SVM_TF-IDF模型和NN_TF-IDF；LDA主题模型，具体包括分别基于神经网络和Jensen Shannon Divergence(JSD)距离的NN_LDA模型和JSD_LDA模型；基于神经网络的词向量模型NN_Word2Vec；仅使用了GRU的法条推荐模型；结合使用了GRU和最大卷积层的GRU+MP模型。第一阶段的对比实验中，设置K1值为10，实验结果如图7所示。可见，GRU相较于普通的神经网络，由于其强大的时序信息捕获能力，各数值表现均得以提升；而在引入了了最大池化层和注意力机制后，模型得以获取语义更加丰富的上下文向量，分类效果更好。

尽管上述分类器已经达到了足够优秀的推荐效果，本发明还是期望通过再排序策略进一步优化。基于上述分类器得到的K1个候选推荐法条，通过不断调整(K1，K2)数值对的大小，观察再排序带来的推荐效果的提升，结果如图8所示。可见，当K2值为5时，随着K1值的增加，模型的推荐效果呈上升趋势，相较于只使用分类器的模型，最终结果在召回率上得到了9％的提升。显然，本发明采用的再排序策略是行之有效的，在第一阶段错误分类的法条在再排序阶段的位置得以正确调整。

上面已经参考附图对根据本发明实施的一种可复用的法条推荐框架进行了详细描述。本发明具有如下优点：结合利用循环神经网络的序列信息提取优势与卷积神经网络的全局信息提取优势，更精准地捕捉序列文本潜在的语义信息；考虑不同的词对分类结果的贡献度不尽相同，框架基于注意力机制对于案件基本情况描述文本中的关键词在生成上下文向量时给予更高的权重，符合关键词在法条推荐中起关键性作用的真实情况；通常将法条推荐任务视为分类问题，由于将法条视为分类标签，容易造成对法条自身蕴含的丰富语义的忽视，本发明对法条自身蕴含的语义信息进行编码，增强了案件基本情况与法条间的语义关联；鉴于现实场景中存在多个法条总是同时被案件引用的情况，因此本发明将多个法条的内部关联纳入法条的推荐依据，提升了推荐结果的准确性、完整性；本发明所提出的两阶段框架同样适用于其它主题的推荐任务，具有较强的可复用性。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种可复用的法条推荐框架，其特征在于包含以下步骤：

步骤(2)裁判文书预处理；

步骤(3)用户输入预处理；

步骤(4)法条集预排序；

步骤(5)提取推荐法条集；

步骤(6)输出推荐法条列表。

步骤(3.1)中文分词；

步骤(3.2)去除法律专有停用词；

步骤(3.3)将案件基本情况转化为固定大小的词向量表示。