CN112699243B

CN112699243B - 基于法条图卷积网络文本的案件文书案由分类方法及介质

Info

Publication number: CN112699243B
Application number: CN202110055384.7A
Authority: CN
Inventors: 沈艳艳; 赵宸
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-10-18
Anticipated expiration: 2041-01-15
Also published as: CN112699243A

Abstract

本发明提供了一种基于法条图卷积网络文本增强的案件文书案由分类方法，包括如下步骤：步骤1：数据预处理，对于数据进行案情提取、文本分词和降噪以及法条共现关系图构建；步骤2：法律词嵌入预训练，在法律领域语料集上进行预训练任务，得到法律领域词嵌入；步骤3：模型构建，建立基于法条图卷积文本增强的案件文书案由分类模型；步骤4：模型训练，训练集数据对步骤3中构建的模型进行梯度下降更新训练，获得模型参数；步骤5：案由预测，所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类。本发明提供的一种基于法条图卷积网络文本的案件文书案由分类方法及介质使得增强后法条文本表征之间有更强的案由相关性。

Description

基于法条图卷积网络文本的案件文书案由分类方法及介质

技术领域

本发明涉及数据处理的技术领域，具体地，涉及基于法条图卷积网络文本的案件文书案由分类方法及介质。

背景技术

案件案由明确了案件的性质，影响着审判过程中的诉讼争议点的确定和适用法律的确定，而案由分类评查也是案件评查的重要组成部分，对构建自动化案件评查系统具有重要意义。因而，案件案由分类能够提高案件评查效率，且还能够为其他法律从业人员提供参考。

在案由分类问题方面，相关方法大都只考虑案件文书的案情描述文本，基于案情描述文本的TF-IDF向量、词向量等构建文本分类模型，没有有效利用法律条文的文本信息和法律条文之间的联系。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于法条图卷积网络文本的案件文书案由分类方法及介质。

根据本发明提供的一种基于法条图卷积网络文本增强的案件文书案由分类方法，包括如下步骤：

步骤1：数据预处理，对于数据进行案情提取、文本分词和降噪以及法条共现关系图构建；

步骤2：法律词嵌入预训练，在法律领域语料集上进行预训练任务，得到法律领域词嵌入；

步骤3：模型构建，建立基于法条图卷积文本增强的案件文书案由分类模型；

步骤4：模型训练，训练集数据对步骤3中构建的模型进行梯度下降更新训练，获得模型参数；

步骤5：案由预测，所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类。

优选地，所述步骤1中所述的案情提取为利用规则匹配案件文书中案情描述段落，所述分词和降噪为基于通用词典和法律词典将文本划分为词语序列，通过停用词列表将文本中的停用词进行删除，所述法条共现关系图构建为统计不同法律条文在同一案件中出现频次，构造对应的共现矩阵来表征法条共现关系图。

优选地，所述步骤2的法律词嵌入预训练为在收集的法律领域语料集上通过预训练方法得到词语映射到词向量的词嵌入矩阵，词嵌入矩阵初始是现有通用领域语料集训练完成的词嵌入矩阵，在此基础上在法律领域进一步训练。

优选地，所述步骤3的模型构造的具体步骤包括案情文本表征向量的建模、基于图卷积网络法条文本表征建模和法条-案情文本增强网络的建模。

优选地，所述案情文本表征向量的建模包括：使用词嵌入矩阵将案情文本词语序列转化为词向量序列，使用特定神经网络文本自编码器进行特征提取和降维降噪，从编码器得到案情文本表征向量，为后续模型提供有效的输入。

优选地，所述基于图卷积网络法条文本表征建模包括：使用词嵌入矩阵将法律条文词语序列转化为词向量序列，使用神经网络文本自编码器进行特征提取和降维降噪，从编码器得到法条文本表征向量，对全部法条文本表征向量基于法条共现关系图使用图卷积神经网络进行文本增强得到增强后的全部法条文本表征向量，为后续模型提供有效的输入。

优选地，所述法条-案情文本增强网络的建模包括：基于注意力机制对案情文本表征和相关法条文本表征进行匹配和计算，得到法条对应权重，案情与法条文本相关性越强则权重越大，根据权重将法条文本表征对原案情描述文本表征进行增强，最后通过一个全连接网络作为分类器得到案件在不同案由上的概率分布。

优选地，所述的步骤4包括如下步骤：

步骤4.1：模型参数初始化:；

步骤4.2：使用训练集对模型进行基于梯度下降的无监督预训练和有监督训练:；

步骤4.3：验证集选模型。

优选地，所述的法律条文和案由包括了训练集中案件涉及的全部法律条文和案由。

本发明还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述中的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1.本发明对法律条文在案件当中的共现关系进行建模，通过图卷积神经网络达到利用法律条文共现关系增强法律条文自身文本表征，而共现关系提现了不同法律条文在同一案由下的相关程度，从而使得增强后法条文本表征之间有更强的案由相关性。

2.本发明提出的引入法条文本表征进行文本增强的方法，能够利用法律条文与案由之间的强相关性，从而给原文本表征引入更强的案由分类特征从而提高模型的分类准确度。

3.本发明中的使用了基于注意力机制的法条文本表征权重计算，即有效利用了法律条文自身的文本信息，也避免了原案件引用法条错误可能带来巨大噪音，使得模型在使用时仅需要案情描述作为输入，扩宽了模型的使用场景和鲁棒性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的方法流程图；

图2为本发明的模型架构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供了一种基于法条图卷积网络文本的案件文书案由分类方法及介质，文本增强为基于法条共现关系的法条文本表征增强和基于注意力机制的案情-法条文本表征增强，包括如下步骤：

步骤1：数据预处理，包括案情提取、文本分词和降噪、法条共现关系图构建。

案情提取：根据案情匹配规则从案件文书中提取案情描述段落对应的案情描述文本，相关提取规则可以是基于包含特定触发词的“本院认为”、“本院认定”、“本院查明”等相关段落提取。

文本分词和降噪：对案情描述文本和法条文本，基于中文通用词典和法律词典进行分词处理得到文本的词语序列，并对根据停用词表删除词语序列中的停用词从而进行降噪。分词后的词语使用one-hot编码。

法条共现关系图构建：基于案件引用的法律条文，统计法律条文的共同出现的频次得到共现矩阵A定义如下：

其中A∈R^K*K是一个对称矩阵，K为总法条个数。

步骤2：在法律领域语料集上进行预训练任务得到法律领域词嵌入，对应的词嵌入能将词语的one-hot编码转变为语义更加丰富的词向量。

步骤3：模型构建步骤，首先是问题定义。给定一个案件文书的案情描述文本词语序列D＝{d₁,d₂…d_m}和全部可能适用的法律条文文本L，每条法条文本词语序列为L_k＝{l_k,1,l_k,2…l_k,n},k∈[1,K]其中d_i,l_k,j∈R^V为构成对应词语序列的one-hot编码的词语，V为词语集的大小，也是词语one-hot编码的长度，m和n为文本对应的词语序列长度，K为总法条个数，预测案件文书对应的案由分类y。

整个模型可以分为3个部分，案情描述表征建模、基于图卷积网络法律条文表征建模、法条-案情文本增强网络。

案情描述表征建模，该部分为对输入的案情描述文本词语序列进行表征建模。具体来说，给定一个案情描述文本词语序列D，首先通过步骤2中预训练好的词嵌入矩阵将词语序列中的one-hot编码的词语转化成词向量，最后得到词向量序列De,具体公式为：

其中

为词嵌入矩阵，d_i为词语对应的one-hot编码，整个词向量转话过程可以看作从词嵌入矩阵取出词语对应的那一行词向量。

然后将案情文本词向量序列输入由特定神经网络如TextCNN构成的自编码器p当中，通过自编码器的编码器得到案情文本表征D^p。自编码器由编码器和解码器g_p(·)两部分构成，编码器负责将输入文本的词向量序列进行特征提取、降维降噪得到文本表征，解码器负责将编码器得到的文本表征重构回原来的文本词向量序列，自编码器以重构误差最小化为目标进行无监督预训练，具体公式可以表示为如下：

d^p＝f_p(^De)

其中f_m(·)为编码器，g_p(·)为解码器，

为编码器提取得到的案情文本表征向量。

基于图卷积网络法律条文表征建模，该部分对全部可能适用的法律条文文本表征进行建模，并基于法条共现关系的图卷积网络，对法律条文文本表征进行增强。具体来说，给定法律条文集L＝{L_k|k∈[1,K]}，对每条法律条文的词语序列L_k通过词嵌入矩阵得到其对应的词向量序列

该步骤与案情描述表征建模共用同一个词嵌入矩阵E，具体公式为：

同样的，对每条法律条文的词向量序列

输入到自编码器q中由其编码器编码得到法律条文表征向量

所有法律条文共用同一个自编码器，具体公式为：

对自编码器编码得到的全部法律条文的文本表征

其中每一条法律法律条文都与其在相同案件案由共同出现过的法律条文有着紧密的联系，为了引入这种联系，我们使用基于法条共现关系图的图卷积神经网络为每条法律条文整合与其有共现关系的法律条文的文本表征信息用以增强其自身的文本表征。通过步骤1的数据预处理，我们得到在训练集上的法条共现关系图对应共现矩阵A。根据共现矩阵A得到法条共现关系图对应的度矩阵B∈R^K*K，其中B_ii＝∑_jA_ij，其余非对角元素为0。通过度矩阵B我们能够对共现矩阵A进行归一化处理，从而得到归一化后的共现矩阵

具体公式为：

基于归一化后的共现矩阵

使用一个两层的图卷积神经网络为法律条文捕获其近邻域的法律条文文本表征信息，具体公式为：

其中

为图卷积网络中待学习的参数，σ(·)为激活函数，

为基于共现矩阵图卷积得到的文本增强的法律条文文本表征，是该模块的最终输出。

法条-案情文本增强网络，该模块基于注意力机制匹配与案情文本表征相关的法律条文文本表征，从而增强原有的案情文本表征。通过案情描述表征建模和基于图卷积网络法律条文表征建模，得到了案情文本表征向量d^p和全部法律条文的文本表征

通过如下力机制计算每条法条文本表征的权重：

其中f_att(·)为计算d^p和

之间注意力权重分数s_k的非线性映射函数，由两层全连接网络组成，也可用其他计算相似度函数代替。然后对注意力权重进行softmax归一化得到法条文本表征

的权重α_k。

然后将计算法条文本表征的加权和，即得到了用于增强案情文本表征的法条表征向量，并将其引入案情文本表征中得到增强后的案情文本表征向量：

其中d^a为增强后的案情文本表征向量，

操作可以级联操作，也可以是按位加法，为按位加法时需要保证d^p与l^a维度一致，即T₁＝T₂。

最后将增强后的案情文本表征向量d^a输入到一个输出层为softmax层的全连接神经网络中，即可得到对应案件文书在不同案由上的概率分布。

步骤4：模型训练:，通过训练集数据对S3中构建模型进行梯度下降更新训练，获得模型最优参数，包括三个步骤。

模型参数初始化:使用随机初始化器如Xavier正态分布初始化对各神经网络参数进行初始化，其中的bias设为0；

使用训练集对模型进行无监督预训练和有监督训练：无监督预训练中，以重构误差如MAE最小化为目标，根据训练数据使用基于梯度下降的优化器如Adam优化器对案情文本表征和法条文本表征两个模块的自编码器进行参数更新至模型收敛；然后再对模型进行监督训练，以分类误差最小为目标，使用交叉熵作为目标函数，基于梯度下降的优化器如Adam优化器，将训练集以32的batch大小输入模型每次迭代后保存一次模型，迭代足够的次数至模型基本收敛

使用验证集选择模型：使用上一步保存的模型来对验证集数据进行测试，选择验证误差最小的超参数和对应模型作为最终模型。

步骤5：案由预测，经过步骤4中训练后，基于法条共现关系的图卷积的文本增强后的全部法条表征L^c已经确定并固定，直接保存即可使用，测试使用时不再需要额外的法条文本输入。实际模型使用时仅需要将案件文书的案情描述文本经过分词降噪后的词语序列输入模型即可预测案件文书在每个案由上的概率分布情况，概率最大项的即为模型预测的案由分类结果。

本发明还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时实现上述中的方法的步骤。

本发明提供的一种基于法条图卷积网络文本的案件文书案由分类方法及介质对法律条文在案件当中的共现关系进行建模，通过图卷积神经网络达到利用法律条文共现关系增强法律条文自身文本表征，而共现关系提现了不同法律条文在同一案由下的相关程度，从而使得增强后法条文本表征之间有更强的案由相关性；且提出的引入法条文本表征进行文本增强的方法，能够利用法律条文与案由之间的强相关性，从而给原文本表征引入更强的案由分类特征从而提高模型的分类准确度；且使用了基于注意力机制的法条文本表征权重计算，即有效利用了法律条文自身的文本信息，也避免了原案件引用法条错误可能带来巨大噪音，使得模型在使用时仅需要案情描述作为输入，扩宽了模型的使用场景和鲁棒性。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于法条图卷积网络文本增强的案件文书案由分类方法，其特征在于，包括如下步骤：

步骤5：案由预测，所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类；

所述步骤2的法律词嵌入预训练为在收集的法律领域语料集上通过预训练方法得到词语映射到词向量的词嵌入矩阵，词嵌入矩阵初始是现有通用领域语料集训练完成的词嵌入矩阵，在此基础上在法律领域进一步训练；

所述步骤3的模型构造的具体步骤包括案情文本表征向量的建模、基于图卷积网络法条文本表征建模和法条-案情文本增强网络的建模；

所述案情文本表征向量的建模包括：使用词嵌入矩阵将案情文本词语序列转化为词向量序列，使用神经网络文本自编码器进行特征提取和降维降噪，从编码器得到案情文本表征向量，为后续模型提供有效的输入；

所述基于图卷积网络法条文本表征建模包括：使用词嵌入矩阵将法律条文词语序列转化为词向量序列，使用神经网络文本自编码器进行特征提取和降维降噪，从编码器得到法条文本表征向量，对全部法条文本表征向量基于法条共现关系图使用图卷积神经网络进行文本增强得到增强后的全部法条文本表征向量，为后续模型提供有效的输入；

所述法条-案情文本增强网络的建模包括：基于注意力机制对案情文本表征和相关法条文本表征进行匹配和计算，得到法条对应权重，案情与法条文本相关性越强则权重越大，根据权重将法条文本表征对原案情描述文本表征进行增强，最后通过一个全连接网络作为分类器得到案件在不同案由上的概率分布。

2.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法，其特征在于，所述步骤1中所述的案情提取为利用规则匹配案件文书中案情描述段落，所述分词和降噪为基于通用词典和法律词典将文本划分为词语序列，通过停用词列表将文本中的停用词进行删除，所述法条共现关系图构建为统计不同法律条文在同一案件中出现频次，构造对应的共现矩阵来表征法条共现关系图。

3.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法，其特征在于，所述的步骤4包括如下步骤：

步骤4.1：模型参数初始化:；

步骤4.3：验证集选模型。

4.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法，其特征在于，所述的法律条文和案由包括了训练集中案件涉及的全部法律条文和案由。

5.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法的步骤。