CN110858269B

CN110858269B - 事实描述文本预测方法及装置

Info

Publication number: CN110858269B
Application number: CN201810903715.6A
Authority: CN
Inventors: 刘知远; 涂存超; 胡紫昆; 李想; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2022-03-08
Anticipated expiration: 2038-08-09
Also published as: CN110858269A

Abstract

本发明实施例提供一种事实描述文本预测方法及装置，其中所述方法包括：对待预测案件的事实描述文本进行预处理，获得多个词向量；将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；其中，所述事实描述文本预测网络模型是基于刑事法律文书样本集中的案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息训练得到。本发明实施例通过将事实描述文本的属性信息加入至模型训练过程中，使得训练完成的事实描述文本预测模型能够有效地预测样本较少的罪名，且利用罪名属性信息能够较好地区分易混淆的事实描述文本，提高了自动罪名预测的准确性。

Description

事实描述文本预测方法及装置

技术领域

本发明实施例涉及机器学习以及自然语言处理领域，更具体地，涉及事实描述文本预测方法及装置。

背景技术

自动罪名预测是根据案件的事实描述来自动地决定刑事案件中被告的罪名。几十年来，已经有很多的法律界和计算机界的专家学者提出了不同的方法来进行罪名预测的任务。在已有的方法中，往往是利用机器学习中的相关方法，对于案件中的事实描述的浅层文本特征(词、短语)或者属性特征(日期、地点等)进行罪名预测。

近年来，随着机器学习特别是深度学习的发展，一些新的方法被引入到这个领域。我们可以将罪名预测看作一个基于事实描述的文本分类问题，以事实描述作为文本输入，罪名作为分类的类别依据建立机器学习模型。在这基础上，又有学者将刑法法条等信息引入到罪名预测之中，提升预测的准确率。

然而，我国刑法总共有好几百个法条，涉及罪名也有几百个，而之前已有的工作往往将目标放在出现最多的几十个罪名上，而忽视了其它的罪名。但是，在排除一些现实生活也极少出现的罪名之后，仍然有两百个左右的出现频率较低的罪名。而对于这部分罪名，由于其本来的案例较少，自动罪名预测往往难以达到很好的效果。所以，在出现频率较低，案件样本较少的罪名上，自动罪名预测的效果仍有很大的提升空间。同时，自动罪名预测与人为确定罪名有一定的相似之处，对于一些较为类似的罪名会产生一定的混淆。一些法律上容易混淆的罪名，在自动罪名预测中，也常常被混淆。由此可见，对易混淆的罪名做出更好的区分对于提升自动罪名预测的效果尤为重要。

发明内容

为了克服现有自动罪名预测方法在低频罪名和易混淆罪名上的不足，本发明实施例提供事实描述文本预测方法及装置。

第一方面，本发明实施例提供一种事实描述文本预测方法，包括：

对待预测案件的事实描述文本进行预处理，获得多个词向量；

将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；

其中，所述事实描述文本预测网络模型是基于刑事法律文书样本集中的案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息训练得到。

第二方面，本发明实施例提供一种事实描述文本预测装置，包括：

预处理模块，用于对待预测案件的事实描述文本进行预处理，获得多个词向量；

预测模块，用于将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；

第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的方法。

本发明实施例提出的事实描述文本预测方法及装置，通过有效利用刑法中的罪名的属性信息，让罪名的预测更为准确，实现了对低频罪名的准确预测并可区分易混淆的罪名。

附图说明

图1为本发明实施例提供的事实描述文本预测方法的流程示意图；

图2为本发明实施例提供的事实描述文本预测装置的结构示意图；

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

自动罪名预测旨在已知刑事案件的案情描述后，对于当事人的罪名的进行预测。这项任务往往使用类似于文本分类的方法，提取出文本的特征进行预测。本发明实施例提出的事实描述文本预测方法及装置，能够利用罪名的属性信息，使得自动预测的结果更为准确，覆盖的罪名数量更多，在不同大小的数据集上验证了其有效性及实用性。

如图1所示，为本发明实施例提供的事实描述文本预测方法的流程示意图，该方法包括：

S101、对待预测案件的事实描述文本进行预处理，获得多个词向量。

具体地，本发明实施例所提供的事实描述文本预测方法是基于罪名属性信息进行罪名预测的，事实描述文本是指待预测案件的事实描述部分的文本内容，为了进一步利用事实描述文本进行罪名预测，首先需要对事实描述文本进行预处理，目的是将事实描述文本转换为计算机可以直接处理的若干个词向量。

S102、将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；

具体地，刑事法律文书样本集中的每个样本都对应一个案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息。

其中，案情描述文本则是指刑事法律文书中的事实描述部分的文本内容，案情所对应的实际罪名是指刑事法律文书中记载的所判决的具体的事实描述文本，实际罪名对应的属性信息是指事实描述文本所包含的属性特征。例如，事实描述文本为故意杀人罪，而故意杀人罪对应的属性信息包括：有死亡、有暴力情节、是主观故意；事实描述文本为故意伤害罪，而故意伤害罪对应的属性信息包括：有重伤、有暴力情节、是主观故意。

由上可知故意杀人罪和故意伤害罪对应的属性信息的区别在于一个是有死亡，一个是有重伤，即不同的事实描述文本所对应的属性信息是有区别的，利用事实描述文本对应的属性信息可以将易混淆的事实描述文本区分开。将实际罪名对应的属性信息加入到事实描述文本预测网络模型的训练过程中，可以使事实描述文本预测网络模型具有预测罪名属性的能力，从而克服现有自动罪名预测方法在低频罪名和易混淆罪名上的不足。

事实描述文本预测网络模型的训练过程中，定义目标优化函数由罪名预测损失函数和属性预测损失函数两部分组成，利用随机梯度下降方法进行优化。

将词向量按照事实描述文本中各词语的顺序输入至训练完成的事实描述文本预测网络模型中，最终可以获得罪名预测结果。

本发明实施例提供的事实描述文本预测方法，通过将事实描述文本的属性信息加入至事实描述文本预测网络模型的训练过程中，使得训练完成的事实描述文本预测模型能够有效地预测样本较少的罪名，且利用罪名属性信息能够较好地区分易混淆的事实描述文本，提高了自动罪名预测的准确性。

进一步地，基于上述实施例，所述对待预测案件的事实描述文本进行预处理，获得多个词向量的步骤，具体为：

对待预测案件的事实描述文本进行分词处理；

利用word2vec工具，获取所述待预测案件的事实描述文本中的每个词语所对应的词向量。

具体地，在利用word2vec工具之前需要对待预测案件的事实描述文本进行分词处理。

word2vec也叫word embeddings，是谷歌公司在2013年推出的一个NLP工具，用于将自然语言中的字词转为计算机可以理解的稠密向量，其中意思相近的词将被映射到向量空间中相近的位置。利用word2vec工具，可有效地将待预测案件的事实描述文本中的每个词语转换为对应的相关词向量。

进一步地，基于上述各实施例，所述将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果的步骤，进一步包括：

将所述多个词向量顺序输入至事实描述文本预测网络模型的长短期记忆循环神经网络层中，输出案件文本特征；

将所述案件文本特征输入至事实描述文本预测网络模型的注意力层，输出所述待预测案件所对应的罪名的各属性表示向量；

将所述案件文本特征输入至事实描述文本预测网络模型的池化层获得文本表示向量，将所述待预测案件所对应的罪名的各属性表示向量的平均值与所述文本表示向量进行拼接，获得案件表示向量；

将所述案件表示向量输入至事实描述文本预测网络模型的线性层和softmax层获得待预测案件的事实描述文本预测结果。

具体地，本发明实施例的事实描述文本预测网络模型包括但不限于以下各层：长短期记忆循环神经网络层、注意力层、池化层、线性层和softmax层。

其中，长短期记忆循环神经网络层用于对待预测案件的事实描述文本进行特征提取，具体地，经过预处理后的事实描述文本转换成了若干个向量，将所述若干个词向量按事实描述文本的顺序输入至训练完成的长短期记忆循环神经网络层，获得案件文本特征，案件文本特征包含了待预测案件的案情描述信息的主要内容。

注意力层用于对案件文本特征所隐含的罪名属性信息进行提取，即利用注意力机制引入事实描述文本的罪名属性信息，将所述案件文本特征输入至注意力层，获得所述待预测案件的罪名属性表示向量。

在实现时，所述将所述案件文本特征输入至所述事实描述文本预测网络模型的注意力层，输出所述待预测案件所对应的罪名的各属性表示向量的步骤，具体为：

根据所述案件文本特征，利用注意力机制分别计算所述待预测案件所对应的罪名的各属性表示向量g_k：

其中，h_t表示案件文本特征中的第t个案件文本特征向量，g_k表示所述待预测案件所对应的罪名的第k个属性的表示向量，u_k表示通过训练获得的第k个属性对应的特征向量参数，W^α表示通过训练获得的所有罪名属性对应的矩阵参数，α_k，t表示第t个案件文本特征向量在计算第k个属性表示时的权重。

然后，取所述待预测案件所对应的罪名的各属性表示向量的平均值，并将所述案件文本特征输入至池化层进行降维后获得文本表示向量，将所述待预测案件所对应的罪名的各属性表示向量的平均值与所述文本表示向量进行拼接，获得案件表示向量。

在实现时，取罪名属性表示向量的平均值r＝mean(g₁，……，g_k)；

其中，r表示对于罪名属性表示向量g，每一维取g₁至g_k该维度上的平均值；

通过池化层将案件文本特征h转换为文本表示向量e：

e＝max(h₁，……，h_n)

其中，e表示对于案件文本特征h，每一维取h₁至h_n该维度上的最大值；

将文本表示向量e与罪名属性表示向量的平均值r进行拼接，得到案件表示向量v＝[e₁，e₂，……，e_s，g₁，g₂，……g_s]，其中，s表示e和g向量的长度。

然后，将所述案件表示向量v输入至事实描述文本预测网络模型的线性层和softmax层获得待预测案件的事实描述文本预测结果，在实现时，用一个线性层加上softmax函数预测罪名：

y＝softmax(W^yv+b^y)

其中，W^y、b^y是线行层的参数，分别为矩阵和向量，y为预测的罪名的概率分布。

本发明实施例所提供的事实描述文本预测方法，利用长短期记忆循环神经网络进行特征提取，能够有效地提取出案件事实描述文本的特征，利用注意力机制引入罪名属性信息，与传统的自动罪名预测方法相比，本发明实施例能够覆盖更多的罪名，同时在低频罪名上有更高的准确率。

进一步地，基于上述实施例，所述事实描述文本预测网络模型采用如下方法训练得到：

构建刑事法律文书训练样本集，所示刑事法律文书训练样本集中的每个样本均包括经过预处理的案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息。

具体地，通过获取现有的刑事法律文书，对刑事法律文书中的案情描述文本进行预处理，并对案情所对应的实际罪名进行标注。此外，还需要对实际罪名对应的属性信息进行标注。

根据刑法专家的经验知识，确定属性信息的类型，包括：是否以盈利为目的，是否有买卖行为，是否造成死亡，是否有暴力行为，是否和国家机关有关，是否在公共场合，是否有非法占有行为，是否造成人身伤害，是否故意和是否在生产作业过程中。

然后对每个案情描述文本所对应的实际罪名进行属性信息的确定，即为每个实际罪名标注属性信息，确定每一个类型的属性信息为是或者否。标注后，形成形式法律文书训练样本集。

利用长短期记忆循环神经网络对所述刑事法律文书训练样本集中的案情描述文本进行特征提取，获得案件文本特征；

将所述案件文本特征输入至注意力层，获得所述案情描述文本所对应的罪名的各属性表示向量，并将所述各属性表示向量输入至第一线性层和第一softmax层获得罪名属性的预测值；

在训练阶段，获得罪名属性表示向量后，可以通过一个线性层和softmax函数计算得到每个罪名属性的预测值p_k：

p_k＝argmax(z_k)

其中，

为线性层参数。

将所述案件文本特征输入至池化层获得文本表示向量，将所述罪名的各属性表示向量的平均值与所述文本表示向量进行拼接，获得案件表示向量，并将所述案件表示向量输入至第二线性层和第二softmax层，获得所案情描述文本的事实描述文本预测结果；

定义目标优化函数由罪名预测损失函数和属性预测损失函数两部分组成，所述罪名预测损失函数通过计算事实描述文本预测结果与实际罪名的交叉熵得到，所述属性预测损失函数通过计算罪名属性的预测值与实际罪名所对应的属性信息的交叉熵得到；

目标优化函数具体为：

L＝L_charge+L_attr

其中，L为目标优化函数，L_charge为罪名预测损失函数，L_attr为属性预测损失函数，

和

分别表示罪名和属性的预测值的概率分布，p_i表示属性的真实值。

最后，利用随机梯度下降法对所述目标优化函数进行优化训练，当达到训练结束条件时，获得训练完成的事实描述文本预测网络模型。

另一方面，如图2所示，为本发明实施例提供的事实描述文本预测装置的结构示意图，该装置用于实现在前述各实施例中所述的事实描述文本预测方法。因此，在前述各实施例中的方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

如图2所示，该装置包括：

预处理模块201，用于对待预测案件的事实描述文本进行预处理，获得多个词向量；

预测模块202，用于将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；

本发明实施例提供的一种事实描述文本预测装置，基于罪名属性信息使得训练完成的事实描述文本预测模型能够有效地预测样本较少的罪名，且罪名属性信息能够较好地区分易混淆的事实描述文本，提高了自动罪名预测的准确性。

其中，所述预处理模块201具体用于：

对待预测案件的事实描述文本进行分词处理；

利用word2vec工具，获取待预测案件的事实描述文本中的每个词语所对应的词向量。

其中，所述预测模块202具体包括：

特征提取子模块，用于将所述多个词向量顺序输入到事实描述文本预测网络模型的长短期记忆循环神经网络层中，输出案件文本特征；

注意力子模块，用于将所述案件文本特征输入至事实描述文本预测网络模型的注意力层，输出所述待预测案件所对应的罪名的各属性表示向量；

拼接子模块，用于将所述案件文本特征输入至事实描述文本预测网络模型的池化层获得文本表示向量，将所述待预测案件所对应的罪名的各属性表示向量的平均值与所述文本表示向量进行拼接，获得案件表示向量；

输出子模块，用于将所述案件表示向量输入至事实描述文本预测网络模型的线性层和softmax层获得待预测案件的事实描述文本预测结果。

基于上述实施例，所述特征提取子模块具体用于：

基于上述实施例，所述事实描述文本预测网络模型采用如下方法训练得到：

构建刑事法律文书训练样本集，所示刑事法律文书训练样本集中的每个样本均包括经过预处理的案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息；

利用随机梯度下降法对所述目标优化函数进行优化训练，当达到训练结束条件时，获得训练完成的事实描述文本预测网络模型。

如图3所示，为本发明实施例提供的电子设备的结构示意图，如图所示，处理器(processor)301、存储器(memory)302和总线303；

其中，处理器301及存储器302分别通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述实施例所提供的事实描述文本预测方法，例如包括：对待预测案件的事实描述文本进行预处理，获得多个词向量；将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；其中，所述事实描述文本预测网络模型是基于刑事法律文书样本集中的案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息训练得到。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供事实描述文本预测方法，例如包括：对待预测案件的事实描述文本进行预处理，获得多个词向量；将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果；其中，所述事实描述文本预测网络模型是基于刑事法律文书样本集中的案情描述文本、案情所对应的实际罪名以及所述实际罪名对应的属性信息训练得到。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种事实描述文本预测方法，其特征在于，包括：

所述将所述多个词向量按顺序输入至事实描述文本预测网络模型中，获得所述待预测案件的事实描述文本预测结果的步骤，进一步包括：

将所述案件文本特征输入至事实描述文本预测网络模型的注意力层，输出所述待预测案件所对应的罪名的各属性表示向量；所述注意力层利用注意力机制引入事实描述文本的罪名属性信息，用于对所述案件文本特征所隐含的罪名属性信息进行提取；

将所述案件表示向量输入至事实描述文本预测网络模型的线性层和softmax层获得待预测案件的事实描述文本预测结果；

2.根据权利要求1所述的方法，其特征在于，所述对待预测案件的事实描述文本进行预处理，获得多个词向量的步骤具体为：

对待预测案件的事实描述文本进行分词处理；

3.根据权利要求1所述的方法，其特征在于，所述将所述案件文本特征输入至所述事实描述文本预测网络模型的注意力层，输出所述待预测案件所对应的罪名的各属性表示向量的步骤，具体为：

4.根据权利要求1所述的方法，其特征在于，所述事实描述文本预测网络模型采用如下方法训练得到：

5.一种事实描述文本预测装置，其特征在于，包括：

所述预测模块具体用于：

注意力子模块，用于将所述案件文本特征输入至事实描述文本预测网络模型的注意力层，输出所述待预测案件所对应的罪名的各属性表示向量；所述注意力层利用注意力机制引入事实描述文本的罪名属性信息，用于对所述案件文本特征所隐含的罪名属性信息进行提取；

输出子模块，用于将所述案件表示向量输入至事实描述文本预测网络模型的线性层和softmax层获得待预测案件的事实描述文本预测结果；

6.根据权利要求5所述的装置，其特征在于，所述预处理模块具体用于：

对待预测案件的事实描述文本进行分词处理；

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。