CN110750635A

CN110750635A - 一种基于联合深度学习模型的法条推荐方法

Info

Publication number: CN110750635A
Application number: CN201911009433.2A
Authority: CN
Inventors: 李传艺; 葛季栋; 冯奕; 孔力; 周晓松; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-04
Anticipated expiration: 2039-10-21
Also published as: CN110750635B

Abstract

本发明公开了一种基于法条关系的法条推荐方法，包括以下步骤：从中国裁判文书网收集裁判文书，构成训练语料；对训练语料进行预处理，包括对案件事实、指控罪名、引用法条三者的不同处理；对用户输入进行预处理；划分数据集，训练本发明设计的一个基于法条关系的联合生成模型，该模型基于罪名预测任务辅助法条推荐任务进行学习；根据训练好的联合生成模型提取推荐法条集；输出推荐法条集。本发明利用编码器‑解码器框架，基于法条关系，结合案件事实、控告罪名、引用法条三者之间的深度关联，设计了一种全新的联合生成模型。实现表明，该模型改善了法条推荐任务的预测效果，适用于真实场景下的法条推荐任务。

Description

一种基于联合深度学习模型的法条推荐方法

技术领域

本发明涉及一种法条推荐方法，具体涉及一种基于联合模型的法条推荐方法，属于自然语言处理，数据挖掘技术领域。

背景技术

现如今，人工智能被广泛应用于各行各业，改变了人们的生活方式，也提高了生产效率，促进了社会的发展。近些年来，人工智能和法律的结合已成为一个非常热门的研究方向。利用人工智能技术相关的技术，例如数据挖掘、信息检索、自然语言处理和机器学习等，解决法律领域中的实际问题取得很不错的效果。许多学者已经做出很多重要的研究工作。

人工智能应用于法律服务可分为四大类。第一类是法律检索。各种法律数据库已经存储了大量的电子格式数据，虽然已经可以帮助法律专家进行相关法律信息的检索，但是很多时候仍然是一个费事费力的事，往往由助理人工进行检索。一些学者探索了使用信息检索技术来进行相关法律信息的检索。第二类是文件的审阅。在法律领域，文本往往是冗长的，阅读效率低。在大型的案件中，法律专家可能要阅读超过成千上万的文件。利用机器学习的方法，将案件相关文件的整理、证据和法律发现等任务交给机器。这样可以提高效率，减少时间和人力成本。利用信息抽取技术，可从大量冗长的法律文本中提取出关键字词和其他关键的信息。也可使非结构化文本转成结构化文本，辅助阅读长文本。分类和聚类技术在法律领域也得到了很好的应用。不同法律文书有不同的类别，通过分类聚类技术，可将大量杂乱无章的文书按类别放置，从而整理文书。分类之后，也一定程度上提高了文书检索的效率。第三类是案件的预测。利用自然语言处理等相关技术，预测案件的结果。例如案件推理问题，根据证据信息利用相关规则进行推理，从而得到结果并分析。第四类是咨询服务。通过建立QA系统，用户通过在线访问网站，输入自己的咨询问题，即可获得想要的相关信息。例如离婚、签证咨询。除了上述四类，还有学者研究了法律类文本的自动摘要和分词技术。

其中，法条推荐极具价值。对于法律专家而言，法条推荐可以提供案件可能适用的法条，提高判案效率，帮助法官实现同案同判，确保公平正义。对于普通群众而言，法条推荐可以帮助当事人了解同类案件的诉讼结果和相关法条，形成最佳的诉讼策略，节约法律咨询和诉讼的成本。

较早的法条推荐方法主要依赖于人工制订的规则，当文本内容满足了一定的条件，则推荐相应法条。随着机器学习技术的发展，一些方法基于多标签分类框架解决法条推荐问题，并利用分类算法，如支持向量机、随机森林等，其中每个法规都被视为标签。也有一些方法基于文本相似度进行法条推荐，首先找到案情类似的案件，接着从这些类似案件引用的法条中筛选推荐。虽然取得了显著的进步，但他们只考虑统计信息，即使用n-gram作为特征，忽略文本中潜在的语义。近些年来，神经网络技术在许多语义理解任务中取得显著成效，如机器翻译、文本摘要等。神经网络可以深入挖掘文本的语义信息，从自然语言理解的角度处理文本。事实上，案件属于不同的类别，如盗窃、抢劫、离婚。盗窃、抢劫案件更有可能与刑法有关，离婚案件有很高的可能性得到婚姻法的支持。人们倾向于确定适用法条的范围，然后确定具体的法条。所以，利用案件类别信息有助于缩小相关法条的范围，提高法条推荐效果。此外，案情描述中的词在推荐过程中具有不同的语义信息。例如，文本中出现的单词“抢劫”可能表示它更可能涉及抢劫案件。因此，在本发明中，我们使用神经网络，将法条推荐和案件分类联合在一起，并重点关注重要词汇，着重研究一种基于联合模型的法条推荐方法。

发明内容

本发明是一种基于联合模型的法条推荐方法，包括构建裁判文书数据集，并针对数据集进行预处理，基于预处理后的数据集，训练神经联合网络，通过用户输入案情描述，先预测案件类别，接着利用该案件类别信息指导注意力机制进行法条推荐，同时融入主题向量，加强类别信息的影响。该方法能够从语言角度理解用户输入文本，能够准确推荐案件适用法条，提高判案效率。

1.一种基于联合模型的法条推荐方法，其特征在于包含以下步骤：

步骤(1)构建数据集。

步骤(2)裁判文书预处理。

步骤(3)训练联合模型。

步骤(4)用户输入预处理。

步骤(5)推荐法条。

2.根据权利要求1所述的一种基于联合模型的法条推荐方法，其特征在于步骤(1)中根据案由从中国裁判文书网中下载并构建用于训练模型的数据集。

3.根据权利要求1所述的一种基于联合模型的法条推荐方法，其特征在于步骤(2)中裁判文书预处理，具体子步骤包括：

步骤(2.1)抽取案件基本情况段落和引用法条以及案件类别。使用正则表达式从裁判文书中抽取出案件基本情况段落和引用法条列表以及案件类别。

步骤(2.2)分词。使用分词工具对完整段落做分词处理，得到分割开的单词，并去除标点符号等无用信息。

步骤(2.3)去停用词。首先构建法律领域专用停用词词表和通用停用词词表，并根据词表从分词结果中去掉无信息词汇。接着计算每个词的出现频次，删掉频次过高和过低的词汇。最后去掉长度小于2的词。

4.根据权利要求1所述的一种基于联合模型的法条推荐方法，其特征在于步骤(3)中训练联合模型，具体子步骤包括：

步骤(3.1)使用LDA算法基于分完词后的文本训练主题模型，以此得到每篇裁判文书的主题向量，以反映文档的主题语义信息。

步骤(3.2)使用词嵌入模型基于分完词后的文本训练词向量，从而得到词汇表中所有词汇的分布式语义表示。

步骤(3.3)构建基于联合学习的神经网络，将法条推荐和案件类别分类任务联合在一起。使用分完词后的文本对其进行训练。

5.根据权利要求1所述的一种基于联合模型的法条推荐方法，其特征在于步骤(4)中用户输入预处理，具体子步骤包括：

步骤(4.1)使用分词工具对用户输入文本进行分词。

步骤(4.2)去除标点符号。

步骤(4.3)去除法律专有停用词。

步骤(4.4)去除通用停用词。

6.根据权利要求1所述的一种基于联合模型的法条推荐方法，其特征在于步骤(5)中使用已训练好的联合模型，并结合主题向量，推荐适合用户输入案情的法条。具体子步骤包括：

步骤(5.1)使用训练好的词嵌入模型对用户输入文本进行特征表示。

步骤(5.2)通过双向循环神经网络读取用户输入词向量，并挖掘其中的序列信息和语义信息。

步骤(5.3)对双向循环神经网络中所有时间步的隐藏状态进行平均池化操作，以得到用户输入的整体文档特征表示。

步骤(5.4)基于上一步得到的文档特征表示，使用案件分类全连接神经预测用户输入案件的案件类别，并得到案件类别分布。

步骤(5.5)使用注意力机制关注用户输入案情中的重要词汇，同时利用预测的案件类别分布指导注意力机制。最后获得文档语义向量。

步骤(5.6)通过训练好的主题模型获得用户输入案件的主题向量，并和上一步的文档语义向量进行拼接。

步骤(5.7)将上一步的拼接得到的向量输入进法条推荐全连接神经网中，计算所有法条的推荐概率。最后根据阈值选取法条作为最终的推荐结果。

本发明与现有技术相比，其显著优点是：利用案件的类别信息辅助法条推荐，提高了法条推荐的准确性；通过注意力机制，能够重点关注重要词汇，并赋予这些词汇更大的权重，从而影响推荐结果；融入了预训练好的主题向量，能够提高案件类别信息的影响。

附图说明

图1基于联合模型的法条推荐方法流程图

图2提取特定的裁判文书段落的正则表达式

图3裁判文书语料提取示例图

图4联合训练模型结构示意图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决法条推荐问题，提出一种基于联合模型的法条推荐方法，包括构建裁判文书数据集，并针对数据集进行预处理，基于预处理后的数据集，训练神经联合网络，通过用户输入案情描述，先预测案件类别，接着利用该案件类别信息指导注意力机制进行法条推荐，同时融入主题向量，加强类别信息的影响。该方法能够从语言角度理解用户输入文本，能够准确推荐案件适用法条，提高判案效率。本发明概括来说主要包括以下步骤：

步骤(1)构建数据集。

步骤(2)裁判文书预处理。

步骤(3)训练联合模型。

步骤(4)用户输入预处理。

步骤(5)推荐法条。

上述一种基于联合模型的法条推荐方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.由于神经网络是一种监督模型，需要数据对其训练。中国裁判文书网上公布了大量裁判文书，因此首先从该网站上下载文书构建数据集。

2.裁判文书记录一个案件的整个审判过程，当不非所有内容都是有用的，在步骤2中需要对裁判文书进行预处理。具体步骤是：

步骤(2.1)抽取案件基本情况段落和引用法条以及案件类别。在案件审理完毕后，所有的诉讼过程都会被记录在裁判文书中，其中记录了和案件有关的全部信息。一篇完整的裁判文书遵循一定的格式，主要包括原告诉称段、被告辩称段、证据段、案件基本情况段、判决结果、判决原因和所引用法律条文等。但并非所有信息都是有用的，我们主要关注于三个部分，分别是案件基本情况段和引用的法条以及案件的类别。其中案件基本情况段描述了整个案件的事实信息，用于训练联合模型。在书写裁判文书时，一般会按照一定的规则书写，所以可以使用正则表达式从原文中抽取这三个部分，具体正则表达式如图2所示，提取后的结果如图3所示。

步骤(2.2)分词。在得到案件基本情况段后，我们对其进行分词处理，本专利中使用Jieba分词工具。分完词后，完整的段落转化为了单词集合。同时，我们可以去掉标点符号，英文字母和数字。

使用分词工具对完整段落做分词处理，得到分割开的单词，并去除标点符号等无用信息。

步骤(2.3)去停用词。首先构建停用词词表，我们从两个方面进行考虑，分别是法律领域专用停用词和通用停用词。接着我们统计所有词汇的频次，并根据频次删掉过高和过低的词汇。因为这些词汇大多都是无用词汇。最后，我们去掉长度小于2的词，本发明中我们不考虑单个的字。

3.本步骤用构建的数据集对联合模型进行训练。

步骤(3.1)使用LDA算法基于分完词后的文本训练主题模型。主题模型在一定程度上反映了文档的语义信息。在联合模型中，将使用到主题向量以利用案件的类别信息辅助法条推荐。

步骤(3.2)使用词嵌入模型基于分完词后的文本训练词向量。我们需要对案件基本情况词汇集合进行特征表示，传统的做法通常是利用词袋模型，只考虑了词汇的统计特征。在本发明中，我们将采用词嵌入的方式，通过学习得到词向量，语义相似的词汇被映射到特征空间中想近的位置。

步骤(3.3)构建基于联合学习的神经网络。在传统神经网模型中，通常只有单个输入和输出。在本发明中，我们利用联合训练的思想，将法条推荐和案件类别预测融入到一个框架下，从而利用案件类别预测辅助法条推荐，提高法条推荐效果。具体而言，我们的模型中有两个输出，分别是推荐法条和案件类别，两个任务共享神经网参数。

4.用户在进行案情描述后，我们也要对用户输入的文本进行预处理。

步骤(4.1)使用分词工具对用户输入文本进行分词。

步骤(4.2)去除标点符号。

步骤(4.3)去除法律专有停用词。

步骤(4.4)去除通用停用词。

5.训练好联合模型后，我们利用该神经网络，并结合主题向量，推荐适合用户输入案情的法条。具体子步骤包括：

步骤(5.2)通过双向循环神经网络读取用户输入词向量，并挖掘其中的序列信息和语义信息。发明采用Bi-GRU体系结构同时前向后向得挖掘语义信息，通过门机制保证了特征的保留，避免了长期依赖的丢失。案件情况表示为d_i＝{w₁，w₂，...w_m}，每个单词w_m表示为分布式嵌入。Bi-GRU的隐藏状态h_t通过从w₁到w_m的前向结构和从w_m到w₁的后向结构计算的：

v_i＝avg-pool(h₁，h₂，...h_t)

c_i＝f(W_vv_i+b_c)

其中f(·)表示全连接神经网络，c_i是用softmax函数预测的所有类别的概率分布。W_v和b_c是网络参数。

步骤(5.5)使用注意力机制关注用户输入案情中的重要词汇，同时利用预测的案件类别分布指导注意力机制。最后获得文档语义向量。如前文所述，我们在同一个框架下实现法条推荐和类别预测，两个任务共享相同的Bi-GRU架构参数。并非输入序列中的所有单词都包含对结果有相同影响的信息。所以我们使用注意力机制，动态地给出不同的权重。不同的是，我们进一步增强分类效果，将分类结果整合到关注机制中，引导模型明确考虑分类信息。

u_t＝tanh(W_hh_t+W_cc_i+b_u)

在上述步骤中，W_h测量t时刻单词的重要性，并确定其影响程度。在得到每个词的权重后，我们使用Softmax函数对其进行规范化。最后，基于权值求和得到了上下文向量。

r_i＝g(W_s[m_i，p_i]+b_s)

其中g(·)是法条预测全连接神经网络，W_s和b_s是神经网参数，r_i是法条推荐概率分布。

上面已经参考附图对根据本发明实施的一种基于联合模型的法条推荐方法进行了详细描述，附图4是用于训练推荐器的网络结构图。本发明具有如下优点：利用案件的类别信息辅助法条推荐，提高了法条推荐的准确性；通过注意力机制，能够重点关注重要词汇，并赋予这些词汇更大的权重，从而影响推荐结果；融入了预训练好的主题向量，能够提高案件类别信息的影响。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

步骤(1)构建数据集。

步骤(2)裁判文书预处理。

步骤(3)训练联合模型。

步骤(4)用户输入预处理。

步骤(5)推荐法条。

步骤(2.2)分词。使用分词工具对完整段落做分词处理，得到分割开的语段，并去除标点符号等无用信息。

步骤(4.1)使用分词工具对用户输入文本进行分词。

步骤(4.2)去除标点符号。

步骤(4.3)去除法律专有停用词。

步骤(4.4)去除通用停用词。