CN112329891B

CN112329891B - 双向注意力和判案逻辑结合的辅助判案方法、装置、介质

Info

Publication number: CN112329891B
Application number: CN202011367208.9A
Authority: CN
Inventors: 吴飞; 况琨; 甘磊磊; 杨易
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-31
Anticipated expiration: 2040-11-27
Also published as: CN112329891A

Abstract

本申请提供一种双向注意力和判案逻辑结合的辅助判案方法、装置、介质。本发明将判案逻辑和类案知识应用于基于深度学习的法律判决自动预测任务，相比一般的法律判决自动预测算法，本发明对查明事实和原告诉请、原告诉请之间的判案逻辑知识进行了建模，能有效提升算法的可解释性。本发明首次运用判案逻辑知识对法律判决进行自动预测，与其它在该认为上尝试过的模型相比较，本发明在算法和运用上都有自己的独创性和独特性。本发明可以将司法领域专家知识显性地与深度神经网络相结合，提升智能司法判案准确率，并提供判案可解释性。

Description

双向注意力和判案逻辑结合的辅助判案方法、装置、介质

技术领域

本发明涉及智能司法领域，尤其涉及一种双向注意力机制和判案逻辑知识结合的可解释性判决方法。

背景技术

随着我国法律体系的不断完善、人民群众法律意识的不断提升，各级司法机关每年接收的案件数量也在持续增长。与此同时，人工智能技术能够帮助实现司法流程自动化，减少法官重复劳动，方便司法当事人维护自身权益。智能司法已经逐渐成为人工智能技术落地的关键领域。

法律判决的自动预测是智能司法领域一项非常重要的工作，该任务要求能根据法律文本的输入自动预测出对应的判决。之前的工作往往将其形式化为自然语言处理中的文本分类任务，并采用基于传统机器学习的方法或者基于深度神经网络的方法来解决。基于传统机器学习的方法一般使用有监督方法(如支持向量机)，然而此类方法依赖手动构建文本特征(如TF-IDF)。基于深度神经网络的方法(如卷积神经网络，循环神经网络等)无需手动构建文本特征，能直接进行端到端的训练，自动学习出法律文本到判决标签的映射。然而深度神经网络固有的黑盒特性、缺少可解释性的缺点是法律判决的自动预测任务中亟待解决的问题。因此，如何基于深度神经网络设计一种可解释的法律判案方法，对于智能司法的长远发展至关重要。

发明内容

本发明的目的是克服现有技术的不足，提供一种双向注意力机制和判案逻辑知识结合的可解释性判决方法。本发明具体采用的技术方案如下：

第一方面，本发明提供了一种双向注意力和判案逻辑结合的辅助判案方法，其包括如下步骤：

S1：获取法院查明事实文本、原告诉请及对应的标签，得到司法判案训练集；

S2：使用词嵌入层对基于单词的查明事实文本、原告诉请文本进行嵌入，得到词向量表示；

S3：使用长短时记忆网络对法院查明事实文本、原告诉请文本进行建模，得到文本特征表示；

S4：基于各文本特征表示，使用双向注意力机制分别构建查明事实感知的原告诉请表示，以及原告诉请感知的查明事实表示；

S5：基于上述双向注意力机制输出的深度神经网络表示，构建交叉特征，并输入到一个激活函数为softmax的全连接层；

S6：定义软逻辑编码原则，用于将离散的一阶谓词逻辑司法专家知识转化为可微的端到端训练的神经网络组成部分；

S7：使用上述全连接神经网络层的输出，对查明事实和诉请之间的判案逻辑、以及诉请与诉请之间的判案逻辑知识进行编码表示，并将编码表示输出与神经网络输出进行相加；

S8：将S7中相加后得到的结合了神经网络和判案逻辑知识的总输出，输入到另外一个激活函数为softmax的全连接层，基于该全连接层输出y’和真实标签，使用交叉熵作为损失函数，并使用反向传播算法学习模型参数，将学习得到的深度神经网络用于进行司法辅助判案。

在上述方案基础上，各步骤可以采用如下优选的具体方式实现。

作为优选，所述的步骤S1具体包含以下步骤：

S101：获取法院查明事实文本集合表示为I＝{I₁,I₂,…,I_T}，其中T为文本集合中样本数目，I_i＝{w_i1,w_i2,…,w_iN}表示第i个查明事实文本，w_ij为第i个查明事实文本中的第j个单词，i∈{0,…,T}，j∈{0,…,N}，N为第i个查明事实文本中的单词个数；

S102：获取原告诉请文本集合表示为C_i＝{c_i1,c_i2,…,c_iK}，其中C_i为第i个样本的原告诉请，c_ik＝{w_ik1,w_ik2,…,w_ikM}表示第i个样本的第k个诉请文本，w_ikm为第i个样本的第k个诉请文本中的第m个单词，k∈{0,…,K}，m∈{0,…,M}，K为第i个样本中的诉请文本个数，M为第i个样本的第k个诉请文本中的单词个数；

S103：获取待分类的原告诉请文本对应的可训练标签Y_i＝{y_i1,y_i2,…,y_iK}，Y_i为第i个样本的第j个原告诉请的可训练标签，y_ik表示第i个样本的第k个原告诉请对应的可训练标签；

S104：将每个用于训练的样本表示为三元组(I_i,C_i,Y_i),i∈{1,…,T}，以所有三元组样本组成司法判案训练集。

进一步的，所述的步骤S2具体包含以下步骤：

S201：使用词嵌入网络层将每个样本的查明事实文本I_i和原告诉请文本C_i映射到词向量空间，即将词嵌入网络层输出的w维向量W_i作为文本的特征。

进一步的，所述的步骤S3具体包含以下步骤：

S301：使用长短时记忆网络将每个查明事实文本和诉请文本的词向量特征W_i映射到上下文特征空间，即将双向长短时记忆网络的隐层输出的h维向量H_f和H_c作为文本的上下文特征。

进一步的，所述的步骤S4具体包含以下步骤：

S401：计算S3中获得的查明事实和原告诉请之间的上下文特征相似度矩阵S：

S402：计算原告诉请感知的查明事实文本表示

α_i＝softmax(S，dim＝1)

其中：

表示

中的第i列向量，dim表示维度，α_i表示

的权重，

表示H_c中的第i列向量；

S403：计算查明事实感知的原告诉请文本表示

β_i＝softmax(S，dim＝2)

其中：

为

中的第i列向量，β_i表示

的权重，

表示H_f中的第i列向量，h为双向长短期记忆网络的隐状态维度大小。

进一步的，所述的步骤S5具体包含以下步骤：

S501：基于S4中双向注意力机制的输出

和

构建交叉特征G如下：

其中：符号“

”表示H_c和

的逐元素相乘运算；

S502：将所述交叉特征G输入一个使用softmax作为激活函数的第一全连接层中：

y＝softmax(WG)

其中W是模型训练参数，y表示第一全连接层的输出结果。

进一步的，所述的步骤S6具体包含以下步骤：

S601：定义关键证据事实，用于构成一阶谓词逻辑变量集合，，其中：

X_TIR:表示当前原告诉请是否为利息请求；

X_RIO:表示当前约定利率是否合法；

X_RIA:表示当前借贷双方是否约定利率；

X_DIL:表示当前原告请求逾期还贷日期是否合法；

X_TIC:表示当前原告诉请是否为诉讼费请求；

S602：定义一阶逻辑规则用于表示法律知识，其中：

K1:

规则K1表示当约定利率违反法律规定时，不应支持原告诉请；

K2:

规则K2表示当逾期利息还款日期违法法律规定时，不应支持原告诉请；

K3:∧_j≠iY_j∧X_TIC→Y_i：规则K3表示当原告其余诉请皆判支持时，原告对于诉讼费的诉请也应该被支持；

式中：“

”表示否定，“∧”表示合取，“∨”表示析取，“→”表示蕴涵；

S603：定义软逻辑编码原则，用于将离散的一阶谓词逻辑司法专家知识转化为可微的、端到端训练的神经网络组成部分：

Γ(P)＝y(P)

Γ(P₁∧…∧P_n)＝max(0，∑Γ(P_i)-N+1)

Γ(P₁∨…∨P_n)＝min(1，∑Γ(P_i))

其中：max(,)表示取最大值操作，min(,)表示取最小值操作，P表示基本命题，P_i表示第i个基本命题。

进一步的，所述的步骤S8具体包含以下步骤：

S801：定义另一个使用softmax作为激活函数的第二全连接层，将S7中的编码表示结果Γ(X)和双向注意力神经网络输出y的相加结果，输入第二全连接层中：

y′＝softmax(y+Γ(X))

其中：y′为第二全连接层的输出结果；

S802：输入训练集中的训练样本，根据损失函数

对深度神经网络进行反向回馈以得到深度神经网络的各层的参数θ；所述损失函数

为交叉熵损失：

其中：y′_ik为第i个样本的第k个原告诉请在第二全连接层中的输出结果y′；

S803：根据学习得到的深度神经网络，进行司法辅助判案以输出审判结果。

第二方面，本发明提供了一种双向注意力和判案逻辑结合的辅助判案装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如第一方面任一项方案所述的双向注意力和判案逻辑结合的辅助判案方法。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如第一方面任一项方案所述的双向注意力和判案逻辑结合的辅助判案方法。

本发明将判案逻辑和类案知识应用于基于深度学习的法律判决自动预测任务。相比一般的法律判决自动预测算法，本发明对查明事实和原告诉请、原告诉请之间的判案逻辑知识进行了建模，能有效提升算法的可解释性。本发明首次运用判案逻辑知识对法律判决进行自动预测，与其它在该认为上尝试过的模型相比较，本发明在算法和运用上都有自己的独创性和独特性，本发明的模型算法性能也已达到世界领先水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种双向注意力机制和判案逻辑知识结合的可解释性判决方法的流程示意图。

图2是本发明实施例提供的一种双向注意力机制和判案逻辑知识结合的可解释性判决方法的训练逻辑图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的问题，本发明实施例提供了一种基于双向注意力机制和判案逻辑知识结合的可解释性司法辅助判决方法，如图1所示，其具体包括如下步骤：

S3：使用LSTM(长短时记忆网络)对法院查明事实文本、原告诉请文本进行建模，得到文本特征表示；

本发明的上述S1～S8的实现方法，可以将司法领域专家知识显性地与深度神经网络相结合，提升智能司法判案准确率，并提供判案可解释性。在本实施例中，上述各步骤可以通过以下具体方式实现。

本实施例中，步骤S1的具体子步骤包括：

本实施例中，步骤S2的具体子步骤包括：

本实施例中，步骤S3的具体子步骤包括：

本实施例中，步骤S4的具体子步骤包括：

S402：计算原告诉请感知的查明事实文本表示

α_i＝softmax(S，dim＝1)

其中：

表示

中的第i列向量，dim表示维度，α_i表示

的权重，

表示H_c中的第i列向量；

S403：计算查明事实感知的原告诉请文本表示

β_i＝softmax(S，dim＝2)

其中：

为

中的第i列向量，β_i表示

的权重，

本实施例中，步骤S5的具体子步骤包括：

S501：基于S4中双向注意力机制的输出

和

构建交叉特征G如下：

其中：符号“

”表示H_c和

的逐元素相乘运算；

y＝softmax(WG)

其中W是模型训练参数，y表示第一全连接层的输出结果。

本实施例中，步骤S6的具体子步骤包括：

X_TIR:表示当前原告诉请是否为利息请求；

X_RIO:表示当前约定利率是否合法；

X_RIA:表示当前借贷双方是否约定利率；

X_DIL:表示当前原告请求逾期还贷日期是否合法；

X_TIC:表示当前原告诉请是否为诉讼费请求；

S602：定义一阶逻辑规则用于表示法律知识，其中：

K1:

K2:

式中：“

Γ(P)＝y(P)

Γ(P₁∧…∧P_b)＝max(0，∑Γ(P_i)-N+1)

Γ(P₁∨…∨P_n)＝min(1，∑Γ(P_i))

本实施例中，步骤S7的具体子步骤包括：

在前述的第一全连接层中获得了输出y，因此可以对查明事实和诉请之间的判案逻辑、以及诉请与诉请之间的判案逻辑知识进行编码表示，获得一个编码表示输出结果，此处记为Γ(X)，此处的X通式性表示根据实际情况调整的输入数据。该输出结果代表了司法领域专家知识，因此可以将其显性地与深度神经网络的输出相结合，作为后续网络层的输入进行判案结果的输出，两者的结合可以表示为(y+Γ(X))。

本实施例中，步骤S8的具体子步骤包括：

y′＝softmax(y+Γ(X))

其中：y′为第二全连接层的输出结果；

S802：输入训练集中的训练样本，根据损失函数

为交叉熵损失：

本发明的整体网络框架的训练逻辑图参见图2所示。

S803：根据学习得到的深度神经网络，将原始的查明事实文本、原告诉请文本输入其中，按照与训练数据相同的方式即可进行司法辅助判案，输出审判结果(包括支持、部分支持或拒绝原告的诉请)。

在另一实施例中，本发明还提供了一种双向注意力和判案逻辑结合的辅助判案装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现前述S1～S8所述的双向注意力和判案逻辑结合的辅助判案方法。

在另一实施例中，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现前述S1～S8所述的双向注意力和判案逻辑结合的辅助判案方法。

需要注意的是，存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然，还装置中还应当具有实现程序运行的必要组件，例如电源、通信总线等等。

下面利用前述实施例中的双向注意力和判案逻辑结合的辅助判案方法，通过一个具体的应用实例来展示本发明分类方法的具体效果。具体的方法步骤如前所述，不再赘述，下面仅展示其具体效果。

实施例

本实施例在中国裁判文书网收集的民间借贷数据集上进行测试。该数据集包含61,611个民间借贷法律案例。数据集中的每个实例都由事实描述和原告的多个诉请。平均而言：每个案件在事实描述中包含5.94句话，在原告诉请中包含1.89个诉请。诉请被标为支持、部分支持或拒绝。数据集的统计结果如表1所示。

表1民间借贷数据集统计信息

划分	支持	部分支持	拒绝
				训练集	70,386	18,921	6,438
验证集	8,777	2,440	858
				测试集	8,839	2.293	855

为了客观评估本算法的性能，我们使用预训练模型BERT作为基准测试模型，并采用Macro F1和Micro F1(Mac.F1和Mic.F1)作为算法评价的主要指标。

所得实验结果如表2所示，结果表明，本发明的判决方法具有较高的性能性能表现，并超过基准测试模型。

表2总体性能表现

方法	Mac.P	Mac.R	Mac.F1	Mic.F1
					BERT	74.8	70.0	72.2	82.7
CoATT	78.2	78.0	78.1	86.4
					CoATT+LK	79.8	78.9	79.3	87.2

其中CoATT表示只使用了双向注意力机制，+LK表示使用了判案逻辑知识。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种双向注意力和判案逻辑结合的辅助判案方法，其特征在于，包括如下步骤：

S8：将S7中相加后得到的结合了神经网络和判案逻辑知识的总输出，输入到另外一个激活函数为softmax的全连接层，基于该全连接层输出y’和真实标签，使用交叉熵作为损失函数，并使用反向传播算法学习模型参数，将学习得到的深度神经网络用于进行司法辅助判案；

所述的步骤S6具体包含以下步骤：

S601：定义关键证据事实，用于构成一阶谓词逻辑变量集合，其中：

X_TIR：表示当前原告诉请是否为利息请求；

X_RIO：表示当前约定利率是否合法；

X_RIA：表示当前借贷双方是否约定利率；

X_DIL：表示当前原告请求逾期还贷日期是否合法；

X_TIC：表示当前原告诉请是否为诉讼费请求；

S602：定义一阶逻辑规则用于表示法律知识，其中：

K1：

K2：

规则K2表示当逾期利息还款日期违反法律规定时，不应支持原告诉请；

K3：∧_j≠iY_j∧X_TIC→Y_i：规则K3表示当原告其余诉请皆判支持时，原告对于诉讼费的诉请也应该被支持；

Γ(P)＝y(P)

Γ(P₁∧...∧P_n)＝max(0，∑Γ(P_i)-N+1)

Γ(P₁∨...∨P_n)＝min(1，∑Γ(P_i))

其中：max(，)表示取最大值操作，min(，)表示取最小值操作，P表示基本命题，P_i表示第i个基本命题；N为第i个查明事实文本中的单词个数；

所述的步骤S8具体包含以下步骤：

y′＝softmax(y+Γ(X))

其中：y′为第二全连接层的输出结果；

S802：输入训练集中的训练样本，根据损失函数

为交叉熵损失：

2.如权利要求1所述的双向注意力和判案逻辑结合的辅助判案方法，其特征在于，所述的步骤S1具体包含以下步骤：

S101：获取法院查明事实文本集合表示为I＝{I₁，I₂，…，I_T}，其中T为文本集合中样本数目，I_i＝{w_i1，w_i2，...，w_iN}表示第i个查明事实文本，w_ij为第i个查明事实文本中的第j个单词，i∈{0，…，T}，j∈{0，…，N}，N为第i个查明事实文本中的单词个数；

S102：获取原告诉请文本集合表示为C_i＝{c_i1，c_i2，…，c_iK}，其中C_i为第i个样本的原告诉请，c_ik＝{w_ik1，w_ik2，...，w_ikM}表示第i个样本的第k个诉请文本，w_ikm为第i个样本的第k个诉请文本中的第m个单词，k∈{0，…，K}，m∈{0，…，M}，K为第i个样本中的诉请文本个数，M为第i个样本的第k个诉请文本中的单词个数；

S103：获取待分类的原告诉请文本对应的可训练标签Y_i＝{y_i1，y_i2，…，y_iK}，Y_i为第i个样本的第j个原告诉请的可训练标签，y_ik表示第i个样本的第k个原告诉请对应的可训练标签；

S104：将每个用于训练的样本表示为三元组(I_i，C_i，Y_i)，i∈{1，…，T}，以所有三元组样本组成司法判案训练集。

3.如权利要求2所述双向注意力和判案逻辑结合的辅助判案方法，其特征在于，所述的步骤S2具体包含以下步骤：

4.如权利要求3所述双向注意力和判案逻辑结合的辅助判案方法，其特征在于，所述的步骤S3具体包含以下步骤：

5.如权利要求4所述双向注意力和判案逻辑结合的辅助判案方法，其特征在于，所述的步骤S4具体包含以下步骤：