CN114610891B

CN114610891B - 面向不平衡司法裁判文书数据的法条推荐方法及系统

Info

Publication number: CN114610891B
Application number: CN202210511295.3A
Authority: CN
Inventors: 陈晓红; 郑旭哲; 梁伟; 吴嘉懿; 胡东滨
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-22
Anticipated expiration: 2042-05-12
Also published as: CN114610891A

Abstract

本发明提供了一种面向不平衡司法裁判文书数据的法条推荐方法及系统，将获取的司法裁判文书数据输入模型并预处理，进行序列化得到模型的训练集；将训练集通过基于预训练模型的嵌入层，得到文本的向量表示；将文本向量通过CNN（卷积神经网络）获取文本特征；将训练集通过基于语法依赖信息的词语搭配算法，得到文本的词语搭配特征；将文本特征和词语搭配特征通过神经网络进行融合，得到混合语义向量；将混合语义向量输入到深层神经网络中，输出法条预测结果；基于法条预测结果和真实司法裁判文书的法条标签进行模型训练，并将训练完成的模型用于司法案件的辅助判决，能有效在极度不平衡数据下推荐适用的法条辅助法官进行司法裁判。

Description

面向不平衡司法裁判文书数据的法条推荐方法及系统

技术领域

本发明涉及司法庭审辅助技术领域，特别涉及一种面向不平衡司法裁判文书数据的法条推荐方法及系统。

背景技术

随着法治进程的加快，公民的诉权和可诉范围随之扩大，各级法院每年都在审理越来越多的司法案件，法院中“案多人少”的问题变得更加严重。同时，由于法官判案过程中存在一定的主观倾向性因素，出现“同案不同判”的问题，长时间以来影响着司法公正性。基于人工智能技术的法律条文（简称：法条）推荐方法能够通过从司法裁判文书中提取关键信息并进行分析，提供预测出的法律条文作为法官判案的参考，以提升法官判案的效率和效果。目前，基于深层神经网络的司法法条推荐命中率在测试数据中已取得较好效果。此类方法通常由两阶段操作实现：首先，从裁判文书中提取事实向量文本特征；其次，将提取的特征输入到训练好的深层神经网络中，输出预测的司法法条。然而，由于实际司法判决存在法条类别数量繁多（超过1000以上法条类别）、实际案件类型及所依据的法条极度不平衡（不平衡比超过1：2500，常见研究主要关注不平衡比例在1：100以内的学习问题）等挑战，上述方法实际应用效果往往难以达到司法判决的要求，这将严重影响模型在辅助法官判案过程中的可用性。

现有的不平衡学习方法一般只能有效解决不平衡比在1：100以内的不平衡数据集，在实际使用过程中，超过1：100的不平衡数据会对个别样本产生归纳偏差；并且当少数类数量足够少时，会难以观察其样本结构，导致少数类识别性能急速下降。同时，现实法律中存在相似案件的情况，将导致模型的性能进一步降低。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明的目的是：针对上述背景技术中存在的不足，提供一种能适应极度不平衡司法裁判文书数据集的法条推荐方法，以进一步提升深层神经网络法条预测的准确性，尤其是对于不常见案件、相似案件预测的准确性，而有效地在极度不平衡数据下推荐适用的法条辅助法官进行司法裁判。

为了达到上述目的，本发明提供了一种面向不平衡司法裁判文书数据的法条推荐方法，包括如下步骤：

S1，将获取的司法裁判文书数据输入模型，对原始的裁判文书进行数据预处理，并且将预处理后的文本数据进行序列化得到模型的训练集；

S2，将训练集通过基于预训练模型的嵌入层，得到文本的向量表示；

S3，将文本向量通过CNN（卷积神经网络）获取文本特征；

S4，将训练集通过基于语法依赖信息的词语搭配算法，得到文本的词语搭配特征；

S5，将文本特征和词语搭配特征通过神经网络进行融合，得到混合语义向量；

S6，将混合语义向量输入到深层神经网络中，输出法条预测结果；

S7，基于法条预测结果和真实司法裁判文书的法条标签，计算损失函数，应用反向传播算法学习模型中的参数，完成模型训练并用于司法案件的辅助判决。

进一步地，S1中将司法裁判文书数据进行分词、过滤无意义词、词语序列化方式进行数据处理，得到词语序列

，

，

表示词语序列中

的每个单词。

进一步地，S2中对于词语序列

中的每个单词

，通过基于预训练模型的嵌入层将其转换成词嵌入向量

，并且得到词语序列的嵌入矩阵

，

。

进一步地，S4中通过句中词语语法依赖信息获取词语的搭配信息，并通过结合注意力机制的双向LSTM（长短期记忆神经网络）将搭配的单词向量合并，得到词语搭配特征。

进一步地，S4具体包括如下子步骤：

S41，通过词语的依赖关系提取词语序列

的词语搭配序列

，

，其中

，

代表了

中的两个词；

S42，将每个词转换成其对应的语义向量，得到搭配嵌入

和句向量

，其中

是搭配词语

的嵌入向量；

S43，将每个单词组中的单词嵌入向量

和

通过一层结合注意力机制的双向LSTM（长短期记忆神经网络）进行合并，得到搭配语义向量

，具体计算公式如下所示：

其中，

是第j时间下LSTM（长短期记忆神经网络）的正向隐藏状态，

是第j时间下LSTM（长短期记忆神经网络）的反向隐藏状态，计算公式如下：

对于每一个搭配语义向量

，将注意力机制应用到词语搭配特征的计算过程中，并且得到词语搭配特征

，其具体的计算方式如下：

其中

是搭配语义向量

的注意力权重值，其计算公式如下：

其中

是权重矩阵，

是激活函数。

进一步地，S5得到混合语义向量

，其计算公式如下：

其中

是神经网络的权重矩阵，

是偏置向量，

是矩阵加法。

进一步地，S6中将混合语义向量输入到使用

作为激活函数的双层神经网络中进行法条的预测：

其中

为双层神经网络函数，

为双层神经网络的参数，

为预测结果。

进一步地，S7中使用损失函数

来进行反向传播以训练神经网络的参数，总体损失函数其计算公式如下：

其中，

是用来表示类别不平衡程度的一个参数，其具体公式为：

给定不同的单个类数据样本大小，

是每个类别所需要的数据样本的最小百分比数，以在训练数据中形成平衡的类分布，

是一个独立超参数；

交叉熵损失函数

的计算公式为：

其中，

是类别数，

是预测向量

第

个类的预测值，

是标签

的第

个类的真实值；

是类间、类内相对比较函数，将每个少数类样本

定义为三元组

，即

，

为难分正样本，

为难分负样本，其中

为取前

个难分正负样本，

为超参数，根据三元组来计算损失函数

，具体计算公式如下：

其中，

表示属性的类边界，通常使用固定的间隔值，

，

是两个样本之间的距离计算公式，

中样本与难分正样本的计算方式和样本与难分负样本两者的计算公式不同，由以下公式给出：

其中，

是模型对于

在目标类别

上得到的预测结果。

本发明还提供了一种面向不平衡司法裁判文书数据的法条推荐系统，包括数据处理模块、文本特征提取及关键特征增强模块、深层神经网络预测模块；

所述数据处理模块用于对原始的裁判文书进行数据预处理，并且将预处理后的文本数据进行序列化得到模型的训练集；

所述文本特征提取和关键特征增强模块用于对训练集文本特征的提取和词语搭配特征的提取；

所述深层神经网络预测模块计算融合文本特征和词语搭配特征的混合语义向量，输出法条推荐的结果，辅助法官进行判案。

本发明的上述方案有如下的有益效果：

本发明提供的面向不平衡司法裁判文书数据的法条推荐方法及系统，通过CNN（卷积神经网络）和词语搭配算法对司法裁判文本进行特征挖掘，并且通过设计少数类纠正损失函数在不平衡学习过程中增大类间距离，从而提升对极度不平衡少数法条类别、及相似类别的预测效果，能有效在极度不平衡数据下推荐适用的法条辅助法官进行司法裁判；

本发明中，通过结合注意力机制的双向LSTM（长短期记忆神经网络）语法依赖词语搭配算法捕获裁判文书数据的语法依赖信息，将其融合至CNN（卷积神经网络）获取的文本特征中得到混合语义向量，降低关键司法语义特征被忽略的可能性，在此基础上针对性设计了极度不平衡少数类纠正训练损失函数，计算少数类与正样本、负样本之间的距离，并设置最小类间距离，从而发现少数类的稀疏采样边界来最小化多数类的主导效应；

本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

图1为本发明的系统示意图；

图2为本发明的双向LSTM（长短期记忆神经网络）示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1：

本发明的实施例1提供了一种面向不平衡司法裁判文书数据的法条推荐方法，针对基于深度神经网络的司法裁判方法的相关缺陷，旨在通过CNN（卷积神经网络）和词语搭配算法对司法裁判文本进行特征挖掘，并且通过设计少数类纠正损失函数在不平衡学习过程中增大类间距离，从而提升对极度不平衡少数法条类别、及相似类别的预测效果。该方法通过结合注意力机制的双向LSTM（长短期记忆神经网络）语法依赖词语搭配算法捕获裁判文书数据的语法依赖信息，将其融合至CNN（卷积神经网络）获取的文本特征中得到混合语义向量，降低关键司法语义特征被忽略的可能性；在此基础上，针对性设计了极度不平衡少数类纠正训练损失函数，计算少数类与正样本、负样本之间的距离，并设置最小类间距离，从而发现少数类的稀疏采样边界来最小化多数类的主导效应。

该方法具体包括如下步骤：

S1，将获取的司法裁判文书数据输入到整个模型中，通过分词、过滤无意义词、提取关键信息等方式对原始的裁判文书进行数据预处理，并且将预处理后的文本数据进行序列化得到模型的训练集；

其中，将司法裁判文书数据进行分词、过滤无意义词、词语序列化等方式进行数据处理，得到词语序列

，

。

其中，对于词语序列

中的每个单词

，通过基于预训练模型的嵌入层将其转换成词嵌入向量

，并且得到词语序列的嵌入矩阵

，

。

S3，将文本向量通过CNN（卷积神经网络）获取文本特征；

其中，将

输入CNN卷积层和最大池化层进行计算，生成事实信息的文本特征

，其中

，

是由

到

组成的嵌入矩阵经过卷积和最大池化得到的向量。

其中，词语搭配特征提取主要通过句中词语语法依赖信息获取词语的搭配信息，并通过结合注意力机制的双向LSTM（长短期记忆神经网络）将搭配的单词向量合并，得到词语搭配特征。其具体过程如下：

S41，通过词语的依赖关系提取词语序列

的词语搭配序列

，

，其中

，

代表了

中的两个词。

S42，将每个词转换成其对应的语义向量，得到搭配嵌入

和句向量

，其中

是搭配词语

的嵌入向量。

S43，将每个单词组中的单词嵌入向量

和

，具体计算方式如下公式所示：

其中，

是第j时间下LSTM（长短期记忆神经网络）的正向隐藏状态，

是第j时间下LSTM（长短期记忆神经网络）的反向隐藏状态，如图2所示，其计算公式如下：

由于不同的词语搭配有不同的重要性，会对结果有不同的影响，因此对于每一个搭配语义向量

，其具体的计算方式如下：

其中

是搭配语义向量

的注意力权重值，其计算公式如下：

其中

是权重矩阵，

是激活函数。

具体地，得到混合语义向量

，其计算公式如下：

其中

是神经网络的权重矩阵，

是偏置向量，

是矩阵加法。混合语义向量是融合了文本特征和词语搭配特征的新特征矩阵。

具体地，将混合语义向量输入到使用

作为激活函数的双层神经网络中进行法条的预测：

其中

为双层神经网络函数，

为双层神经网络的参数，

为预测结果。

S7，基于法条预测结果和真实司法裁判文书的法条标签，计算损失函数，应用反向传播算法学习所提出模型中的参数，训练完的模型可应用于司法案件的辅助判决。

具体地，使用损失函数

来进行反向传播以训练神经网络的参数。在训练过程中，由于数据不平衡导致的模型产生归纳偏差，从而不平衡数据中的少数类样本学习效果差。因此通过将少数类纠正损失函数

和标准交叉熵损失函数（Cross-Entropy）

结合，使模型能够更加关注少数类，总体损失函数其计算公式如下：

其中，

是用来表示类别不平衡程度的一个参数，其具体公式为：

给定不同的单个类数据样本大小，

是每个类别所需要的数据样本的最小百分比数，以便在训练数据中形成平衡的类分布，

是一个独立超参数。

交叉熵损失函数

的计算公式为：

其中，

是类别数，

是预测向量

第

个类的预测值，

是标签

的第

个类的真实值。

是类间、类内相对比较函数。为了充分利用少数类别样本，将每个少数类样本

定义为三元组

，即

，

为难分正样本，

为难分负样本，其中

为取前

个难分正负样本，

为超参数。根据三元组来计算损失函数

，具体计算公式如下：

其中，

表示属性的类边界，通常使用固定的间隔值，

。

是两个样本之间的距离计算公式，

中样本与难分正样本的计算方式和样本与难分负样本两者的计算公式不同，由公式14给出：

其中，

是模型对于

在目标类别

上得到的预测结果。因此，训练过程中难分正样本与样本的预测分数会越来越相近，而难分负样本与样本的距离会渐渐的接近于边界

。

在训练过程中，交叉熵损失函数

用来度量标签向量

和预测向量

分布之间的差异性，确保大部分样本能分到正确类。类纠偏损失函数

通过深入挖掘少数类样本，逐步加强少数类决策边界，使少数类能够最大化与多数类之间的差别；同时，在损失函数引入不平衡数据自适应权重

，为更不平衡类别分配更多权重，为更少不平衡类别分配更少的权重，确保了对于少数类样本的正确分类。

采用本实施例提供的方法训练模型，取最优模型后，将得到的裁判文书进行数据处理：提取其事实信息、事实信息分词、词语序列化等，将处理后的数据通过文本特征提取和关键特征增强模块，提取其文本特征向量和词语搭配特征向量，并通过神经网络将其融合成混合语义特征向量，将获取的语义特征向量输入到两层神经网络中，输出法条推荐的结果，辅助法官进行判案。

以下将用具体实施例进行详细说明。

本实施例利用法研杯上CAIL-SMALL的数据集进行测试。该数据集中包含了154，592个法律案例，其中15%作为测试集，85%作为训练集。数据集中的每个案例包括了事实描述和法条标签。同时，该数据集是一个不平衡数据集，不平衡比至少达到了（10：5000），数据的具体统计结果如表1所示。

表1：CAIL-SMALL法律案例数据集统计细信息

为了评估和验证该模型的性能，我们使用目前流行的CNN（卷积神经网络）、BERT（预训练的语言表征模型）、FLA（基于事实描述和适用法条的神经网络）、HARNN（基于注意力的循环神经网络）作为基准测试模型（对比），并采用Acc（准确率）、MP（精确率）、MR（召回率）、F1（精确率与准确率的加权调和平均）作为模型的主要评价指标。模型的结果如表2所示，根据结果可以得出，本实施例提供的方法显著地提升了MP指标，且在其他评价指标中都取得了较高的性能表现，并超过基准测试模型。

表2：CAIL-Small测试集中模型性能表现

实施例2：

如图1所示，本发明的实施例2提供了一种面向极度不平衡司法裁判文书数据的法律条文推荐系统，包括数据处理模块、文本特征提取及关键特征增强模块、深层神经网络预测模块（结果预测模块）。其中，数据处理模块用于对原始的裁判文书进行数据预处理，并且将预处理后的文本数据进行序列化得到模型的训练集。文本特征提取和关键特征增强模块用于对训练集文本特征的提取和词语搭配特征的提取。深层神经网络预测模块将融合文本特征和词语搭配特征的混合语义向量计算，输出法条推荐的结果，辅助法官进行判案。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。