CN111260114A

CN111260114A - 融入案件辅助句的低频和易混淆罪名预测方法

Info

Publication number: CN111260114A
Application number: CN202010017893.6A
Authority: CN
Inventors: 余正涛; 刘真丞; 郭军军; 黄于欣; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-09
Anticipated expiration: 2040-01-08
Also published as: CN111260114B

Abstract

本发明涉及融入案件辅助句的低频和易混淆罪名预测方法，属于自然语言处理技术领域。本发明包括步骤：首先基于司法领域构建案件辅助句，将案件辅助句拟定为外部知识，作为案情描述和罪名之间的映射。同时基于词级和字符级计算案情描述与案件辅助句多粒度特征，并借助案件辅助句与案情描述构建双向互注意力，强化案情描述和案件辅助句之间的信息交互，提取具有案件辅助句指导的案情描述多粒度倾向性特征，依此来提升低频和易混淆罪名预测准确率。本发明的F1值最大提升13.2％，准确率最大提升4.5％，低频罪名预测F1值提升4.3％，易混淆罪名预测F1值提升8.2％。

Description

融入案件辅助句的低频和易混淆罪名预测方法

技术领域

本发明涉及融入案件辅助句的低频和易混淆罪名预测方法，属于自然语言处理技术领域。

背景技术

罪名预测任务是法律判决任务中一个重要的子任务，在法律领域中发挥着至关重要的作用。现今常见罪名预测准确率比较高，但低频和易混淆罪名的预测准确率却不尽人意，主要是因为低频罪名数据少和易混淆罪名案情描述相似等原因。据统计，截止目前为止我国刑法罪名共有469类，罪名的分布成典型的长尾分布(幂律分布的一种形式)。在我国几千万的裁判文书数据中，我们统计大量真实案件数据后发现，比较常见的罪名(如盗窃罪、抢劫罪等)占了大约78％；比较低频的几十类罪名(如倒卖文物罪、高利转贷罪等)只占了不到0.5％，此类低频罪名中大部分案例数据只有十多条，同时有很大一部分罪名及其案情描述不易区分。因此，提高低频和易混淆罪名的预测准确率是罪名预测任务的难点和关键技术之一。

对于罪名预测任务而言，早在20世纪60年代，Kort等人采用定量方法，通过计算事实元素的数值来预测判断，Nagel等人利用相关分析对重新分配的案例进行预测。随着神经网络模型能提取自然语言更深层次的语义特征，Zhong等人基于神经网络模型结合多个子任务间的拓扑结构信息提出联合模型同时完成法律判决预测的多个子任务。Luo等人基于注意力机制的神经网络模型在罪名预测任务中融入法条信息。此类方法在常见罪名预测取得较好的准确率，但对于低频和易混淆罪名而言预测准确率较低，因此刘宗林等人提出了融入罪名关键词的法律判决预测多任务学习模型，判决结果包括法条推荐和罪名预，Hu等人提出融入罪名区分属性预测低频和易混淆罪名的方法，这些方法都是罪名预测研究的典型代表。

发明内容

本发明提供了融入案件辅助句的低频和易混淆罪名预测方法，旨在融入案件辅助句提高低频和易混淆罪名的预测准确率，改善低频和易混淆罪名预测准确率低这一技术难点。

本发明的技术方案是：融入案件辅助句的低频和易混淆罪名预测方法，所述融入案件辅助句的低频和易混淆罪名预测方法的具体步骤如下：

Step1、基于司法领域分析刑事案件数据，构建案件辅助句；

进一步地，所述步骤Step1中基于刑事案件公共数据集构建案件辅助句，该类案件辅助句具有案件的核心语义信息。

为了改进低频罪名数据量小和易混淆罪名案情描述相似导致其预测准确率低这一问题，基于司法领域构建案件辅助句。借助于案件辅助句扩充低频罪名的构成元素和易混罪名的有效区分因素。

表1案件辅助句

采用图1所示的方式分析中国刑事案件数据，以抢劫罪和抢夺罪为例，首先由这两类罪名的案件性质可知，这两类罪名均有“故意犯罪行为”和“以非法占有为目的”，以此可区别于其他部分案件(如过失致人死亡罪等)；其次通过案情描述对比分析，可知“抢劫罪”抢劫罪的案情描述中包含了“强行推倒”、“刺伤”和“威胁”等暴力手段，与之相反“抢夺罪”的案情描述更倾向于“趁其不备”，未使用暴力手段。因此我们可定义抢劫罪和抢夺罪的有效区分因素为该案件是否“以暴力为手段”。依此共定义了9类具有案件核心语义信息的案件辅助句，案件辅助句的详细介绍如表1所示。值得一提的是，我们定义案件辅助句时均遵循法律规定和案件判决的客观事实。

Step2、在Step1的基础上，对于案件辅助句和案情描述，分别使用Skip-Gram模型和Chars-CNN获取案件辅助句和案情描述的词级和字符级多粒度特征，再引入HighwayNetwork(高速网络)平衡词向量和字符向量的相对贡献比，同时利用单层的Bi-GRU(双向门控循环神经网络)作为理解上下文信息的嵌入机制，模拟单词之间的特征交互，分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量。

Step3、在Step2的基础上，计算具有上下文语义特征信息的案件辅助句和案情描述双向互注意力向量，其结果再结合具有上下文语义特征信息的案情描述表征向量得到案件描述表征，用于把具有上下文语义特征信息的案件辅助句信息和案情描述信息进行耦合，强化案情描述和案件辅助句之间的信息交互；捕捉更多案件关键信息，且每个时刻的注意力向量与之前的嵌入层相关联，且都流向之后的网络层，目的是缓解过早归纳总结而导致的信息丢失；

所述步骤Step3计算具有上下文语义特征信息的案情描述表征向量K和案件辅助句表征向量L的双向互注意力向量；计算方法如下：

Step3.1、首先计算案情描述与案件辅助句相似矩阵：

S_tj＝α(K_:t,L_:j)∈R^T×J (1)

其中，S_tj表示第t个案情描述词和第j个案件辅助句词之间的相似性，K_:t表示K的第t列向量，L_:j表示L的第j列向量，α表示计算K与L之间相似度的可训练函数，如公式(2)：

其中，

是待训练的权重向量，o表示元素依次相乘，(；)表示向量在行上的拼接，k表示K中某一列向量，l表示L中某一列向量；

Step3.2、由相似矩阵计算案情描述到案件辅助句的注意力向量：对S_t:中列进行softmax归一化得a_t，再将a_t与L中的每一列加权求和得

表示案情描述与案件辅助句之间的注意力向量矩阵，如公式(3)、(4)所示:

a_t＝softmax(S_t:)∈R^J (3)

其中S_t:表示第t个案情描述词与案件辅助句词的相似度，a_t表示第t个案情描述词对案件辅助句词的注意力权重；a_tj表示第t个案情描述词对第j个案件辅助句词的注意力权重；

Step3.3、然后再计算案件辅助句到案情描述的注意力向量：

取相似矩阵S_tj中每列的最大值e，再经softmax归一化后得p，利用p计算案情描述中与案件辅助句比较相关词的加权求和得

然后

沿着列方向平铺T次得到案件辅助句到案情描述的注意力向量矩阵

如公式(5)：

其中，max_col表示取S_tj中每列的最大值，Tiled_T表示

沿着列方向平铺T次；

Step3.4、上述得到案情描述和案件辅助句的双向互注意力向量

和

通过Cat函数把案情描述表征向量K、案情描述到案件辅助句的注意力向量

和案件辅助句到案情描述的注意力向量

拼接后得矩阵M，M中每个列向量表示可以视为案件辅助句感知的案情描述词表征，如公式(6):

d_M＝8d (6)

其中M_:t表示第t个列向量，与第t个案情描述词相对应，

表示案件辅助句中某一个词与案情描述的注意力向量，

表示案情描述中某一个词与案件辅助句的注意力向量，其中；表示拼接，

表示矩阵相乘，d表示循环神经网络的输出维度。

Step4、把步骤Step2、Step3的输出进行拼接，并采用双层的Bi-GRU提取案情描述在时序上的依赖关系。

网络层采用两层的Bi-GRU作为嵌入机制，主要是为了获取具有案件辅助句感知的案情描述向量表征M在时序上的上下文依赖关系。这与之前的上下文嵌入网络层不同，前者获取具有案件辅助句感知的案情描述上下文语义依赖特征，后者独立获取案情描述和案件辅助句上下文语义特征。我们把Bi-GRU两个方向的输出进行拼接，得到矩阵N，N中每列向量表示具有案件辅助句感知的案情描述上下文依赖特征表征。如公式(7):

N＝BiGRU(M)∈R^2d×T (7)

Step5、把步骤Step3、Step4的输出进行拼接，并采用最大池化提取案件的关键特征，再通过softmax函数以获取预测结果的概率分布，用于预测罪名。

此部分主要借鉴残差网络的思想把具有案件辅助句感知的案情描述特征表征M与案情描述上下文依赖特征表征N进行拼接后得G，然后采用池化操作提取G中的关键特征H，如公式(8):

G＝(M；N)∈R^10d×T

H＝pooling(G)∈R^10d (8)

其中(；)表示向量在行上的拼接，pooling采用最大池化。

网络层是根据犯罪事实预测出某一个案件的最终罪名。主要是把前网络层提取的显著特征H通过softmax函数，以获取预测结果的概率分布，如公式(9):

P＝softmax(W_(P)H) (9)

其中P表示罪名预测结果的概率分布，W_(P)是可训练的权重向量。

基于神经网络建模的分类方法，通常提取文本的深层次语义特征。本发明方法主要融入具有案件核心语义信息的案件辅助句，借助于案件辅助句构建双向互注意力，强化两者的交互信息，提取更为关键的罪名预测有效特征。此外，分别计算案情描述和案件辅助句的多粒度特征，获取其更全面的语义特征。实验结果表明，该发明方法在低频和易混淆罪名预测任务取得了较好的效果，宏观F1值最大提升13.2％，准确率最大提升4.5％，低频罪名预测F1值提升4.3％，易混淆罪名预测F1值提升8.2％。

本发明的有益效果是：

(1)本发明的核心工作是提高低频和易混淆罪名的预测准确率.为此首次引入案件辅助句这一概念，改善其预测性能.

(2)本发明采用一种融入案件辅助句构建双向互注意力的学习框架来改进低频和易混淆罪名预测性能,获取具有案件辅助句指导的案情描述多粒度倾向性特征表征.

(3)基于三个不同规模的中国刑事案件公共数据集进行实验,本发明的实验结果比其他基线取得更显著的效果。

附图说明

图1为抢劫罪与抢夺罪案例对比分析图；

图2为本发明中总的模型结构图；

图3为双向互注意力计算图。

具体实施方式

实施例1：如图1-3所示，融入案件辅助句的低频和易混淆罪名预测方法，所述融入案件辅助句的低频和易混淆罪名预测方法的具体步骤如下：

Step1、基于刑事案件公共数据集分析刑事案件数据，构建案件辅助句；采用类似于图1的方法，分析大量案例数据，构建了表1所示的案件辅助句。然后结合中国刑事案件公共数据集构建训练集、测试集、验证集；

Step2、在Step1的基础上，分别使用Skip-Gram模型和Chars-CNN获取案件辅助句和案情描述的词级和字符级多粒度特征，再引入高速网络平衡词向量和字符向量的相对贡献比，同时利用单层的Bi-GRU分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量；

Step3、在Step2的基础上，计算具有上下文语义特征信息的案件辅助句和案情描述双向互注意力向量，其结果再结合具有上下文语义特征信息的案情描述表征向量得到案件描述表征，用于把具有上下文语义特征信息的案件辅助句信息和案情描述信息进行耦合，强化案情描述和案件辅助句之间的信息交互；

进一步地，所述步骤Step3计算具有上下文语义特征信息的案情描述表征向量K和案件辅助句表征向量L的双向互注意力向量；计算方法如下：

Step3.1、首先计算案情描述与案件辅助句相似矩阵：

S_tj＝α(K_:t,L_:j)∈R^T×J (1)

其中，

是待训练的权重向量，○表示元素依次相乘，(；)表示向量在行上的拼接，k表示K中某一列向量，l表示L中某一列向量；

a_t＝softmax(S_t:)∈R^J (3)

Step3.3、然后再计算案件辅助句到案情描述的注意力向量：

然后

如公式(5)：

其中，max_col表示取S_tj中每列的最大值，Tiled_T表示

沿着列方向平铺T次；

Step3.4、上述得到案情描述和案件辅助句的双向互注意力向量

和

和案件辅助句到案情描述的注意力向量

d_M＝8d (6)

其中M_:t表示第t个列向量，与第t个案情描述词相对应，

表示案件辅助句中某一个词与案情描述的注意力向量，

表示矩阵相乘，d表示循环神经网络的输出维度。

Step5、借鉴鉴残差的思想，把步骤Step3、Step4的输出进行拼接，并采用最大池化提取案件的关键特征，再通过softmax函数以获取预测结果的概率分布，用于预测罪名。

为了说明本发明的效果，实验采用以上融入案件辅助句构建双向互注意力的方案，对低频和易混淆罪名预测准确率提升有很大帮助，主要包括以下几部分：1、采用多粒度思想分别计算案件辅助句和案情描述更细化的特征；2、我们提出的案件辅助句这一概念，可在一定层度扩充低频罪名的构成元素和易混淆罪名的有效区分因素；3、借助于案件辅助句，构建其与案情描述的双向互注意力，强化两者间的信息交互，提取更多的案件关键特征。

本发明主要选用LSTM、CNN、TFIDF+SVM等典型的分类方法和Fact-Law Attention、Few-Shot Attributes等比较新颖的罪名预测方法作为基线对比，实验结果如表2所示：

表2本发明与基线方法实验结果对比

由表3可知本发明的Acc.、MP、MR和F1值均超过所有基线模型，F1值最大提升为32.5％。这可以证明基线方法在低频和易混淆罪名预测效果略有不足，反之本发明对低频和易混淆罪名预测性能实现了有效的改进。与当前Few-Shot Attri.方法(低频和易混淆预测当前最优方案)对比，本发明在三个数据集上F1值分别提升7.6％、13.2％和12.5％，准确率最大提升4.5％。验证了此发明的鲁棒性和有效性，也证明本发明可以有效提升低频和易混淆罪名预测准确率。

此外还分别验证本发明在低频和易混淆罪名预测性能的提升，选取比较经典的分类方法LSTM和目前低频和易混淆罪名预测效果最好的Few-Shot Attri.方法当做基线方案，如表3所示：

表3低频和易混淆罪名预测验证结果

(a)不同频率罪名实验结果

(b)易混淆罪名实验结果

由表3(a)中实验结果可知，与LSTM-200和Few-Shot Attri.方法相比，对于案例数据小于10的低频罪名预测，本发明的宏观F1值分别提升20.2％和4.3％。由此可证明我们的发明对低频罪名预测性能提升是有效的，同时也可证明融入案件辅助句可以在一定层度改善案例数据极度不均衡这一问题。

从表3(b)中实验结果可知，对于易混淆罪名区分预测，本文模型比LSTM-200模型和Few-Shot Attri.模型的宏观F1值分别提升16.6％和8.2％。由此可证明本文模型能更好的捕捉易混淆案例的区分特征，进一步提高易混淆罪名预测的准确性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融入案件辅助句的低频和易混淆罪名预测方法，其特征在于：所述融入案件辅助句的低频和易混淆罪名预测方法的具体步骤如下：

Step1、基于司法领域分析刑事案件数据，构建案件辅助句；

Step2、在Step1的基础上，提取案件辅助句与案情描述的词级和字符级多粒度特征，并利用单层的Bi-GRU分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量；

2.根据权利要求1所述的融入案件辅助句的低频和易混淆罪名预测方法，其特征在于：所述步骤Step1中基于刑事案件公共数据集构建案件辅助句，该类案件辅助句具有案件的核心语义信息。

3.根据权利要求1所述的融入案件辅助句的低频和易混淆罪名预测方法，其特征在于：所述步骤Step2中，分别使用Skip-Gram模型和Chars-CNN获取案件辅助句和案情描述的词级和字符级多粒度特征，再引入高速网络平衡词向量和字符向量的相对贡献比，同时利用单层的Bi-GRU分别获取具有上下文语义特征信息的案情描述表征向量和案件辅助句表征向量。

4.根据权利要求1所述的融入案件辅助句的低频和易混淆罪名预测方法，其特征在于：所述步骤Step3计算具有上下文语义特征信息的案情描述表征向量K和案件辅助句表征向量L的双向互注意力向量；计算方法如下：

Step3.1、首先计算案情描述与案件辅助句相似矩阵：

S_tj＝α(K_:t,L_:j)∈R^T×J (1)