CN111985680A

CN111985680A - 基于胶囊网络与时序的刑事多罪名预测方法

Info

Publication number: CN111985680A
Application number: CN202010660749.4A
Authority: CN
Inventors: 余正涛; 王红涛; 高盛祥; 郭军军; 黄于欣; 朱恩昌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-24
Anticipated expiration: 2040-07-10
Also published as: CN111985680B

Abstract

本发明涉及基于胶囊网络与时序的刑事多罪名预测方法，属于自然语言处理技术领域。本发明包括步骤：数据的收集；数据的预处理；提取时序特征；对事实描述文本进行特征表示：事实描述文本编码时将词向量按句输入，采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示；从得到的特征向量经过压缩函数进行压缩生成初级胶囊，将初级胶囊作为胶囊预测层的输入，通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率；使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判，最终得到罪名预测的结果。本发明有效的解决了多罪名的低频与多标签分类问题，为智能法院的建设提供了有力支撑。

Description

基于胶囊网络与时序的刑事多罪名预测方法

技术领域

本发明涉及基于胶囊网络与时序的刑事多罪名预测方法，属于自然语言处理技术领域。

背景技术

在人工智能在法律领域的应用中，罪名的判决决定着后续任务的质量，如刑期预判、罚金预判等任务对罪名的需求很高，而高准确率的罪名预判对后续的法律智能化建设具有重要意义。罪名预测是法律智能化进程中的重点也是难点，其直接影响了刑期预判、罚金预判、要素识别等任务的准确率，同时很好的推动了各类智能化进程的发展；为了解决后续工作的质量与性能，需要较高的罪名预测准确性，而其中多罪名的数占整个数据的十分之一，多罪名预测的准确率提高，能够解决10％的数据判决问题。因此，性能优秀的多罪名预判模型不仅很好的解决了罪名预判中的被忽略的多罪名预测，同时也为后续工作打好了基础。

国家发明专利申请“一种基于序列增强胶囊网络的刑事案件罪名预测方法”(公开日2019.08.13)获取案件事实描述以及案件判罚结果为训练数据集，通过序列增强胶囊网络对数据集进行训练，将词向量视为胶囊网络的初始胶囊，构建两个序列到胶囊网络提取得到主特征向量以及注意力机制提取得到的辅助向量，通过两者向量的拼接作为事实描述文本的特征向量，最后采用softmax进行罪名预测。该方法在解决罪名预测的低频预测取得了良好的效果，但是影响罪名预测的性能不仅有低频问题，而且多罪名的数据对预测性能的影响也很严重，如果不将多罪名数据考虑进去，预测性能很难再有提高。

发明内容

本发明提供了基于胶囊网络与时序的刑事多罪名预测方法，以用于对刑事案件中多罪名的预判，有效的解决了多罪名的低频与多标签分类问题。

本发明的技术方案是：基于胶囊网络与时序的刑事多罪名预测方法，包括如下步骤：

Step1、数据的收集：获取罪名与事实描述文本相对应的数据集；

Step2、数据的预处理：将得到的数据集对其中每一个罪名标签进行清理，且区分出单罪名与多罪名数据，然后按照one-hot的方式对罪名进行编码，同时删除空文档数据，构建出单罪名数据集与多罪名数据集，建立训练集、测试集与验证集，并对整个数据语料进行词向量训练，将词向量进行映射；数据处理：在数据预处理阶段考虑到多罪名数据对罪名预测的影响，在构建单罪名的训练数据集的同时构建了多罪名训练数据集，分析胶囊网络中单罪名对多罪名预测的影响。

Step3、提取时序特征：利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征，按照提取的时序特征数量对事实描述文本进行时序特征标签赋值；所述步骤Step3中：依据文本中的时序特点构建时序特征提取规则，如xxxx年xx月xx日为一个时序特征抽取规则，xx月xx日、xx月、xx日等为时间节点，如果时间节点与标准时间节点的差值小于7天的视为同一节点，每出现一个时间节点视为一个时序特征，时序特征值加1，时序特征值用T表示。

Step4、对事实描述文本进行特征表示：事实描述文本编码时将词向量按句输入，采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示；

Step5、胶囊预测层：从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊，将初级胶囊作为胶囊预测层的输入，通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率；

Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判，最终得到罪名预测的结果。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、通过分析裁判文书网的网页结构，通过Scrapy框架构建爬虫文件，自动从页面中抽取网站中的法律判决文书，并通过页面中的结构对数据进行第一步清理；

Step1.2、然后进行人工校正罪名与犯罪事实描述，构建罪名与事实描述文本相对应的数据集。

进一步地，所述步骤Step2的具体步骤：

Step2.1、对得到的数据集中每一个罪名标签进行清理，除去杂余信息；然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据，同时将罪名按照one-hot的方式进行编码，同时删除空文档数据；

Step2.2、对处理好的数据集进行切分，构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集；

Step2.3、使用skip-gram的方法对整个语料进行词向量训练，得到一个300维的词向量集，同时将法律文书中的事实描述进行数字转换。

进一步地，所述步骤Step4的具体步骤为：

Step4.1、获取事实描述文本输入：输入包含m个句子的刑事案件事实描述文本{s₁,s₂,...,s_m}，其中s_m表示事实描述文本中第m个句子的词集，事实描述文本的输入能表示为矩阵S＝s₁+s₂+...+s_m，S∈R^m*n，其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量；

Step4.2、获取LSTM网络的隐含向量：通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间，然后每个词映射为对应的词向量得到句子向量集为

其中s_j表示事实描述文本中的第j个句子的词向量集，

表示第j个句子中第i个词向量，d表示词向量维度；将s_j输入进LSTM层，通过计算得到隐藏层状态向量集

其中

表示第j个句子中的第i个词的隐藏层向量表示；其具体的计算公式如下：

其中

是门控函数通过当前输入

和上层单元输出

计算得到，

表示输入函数，f_i ^j表示遗忘函数，

表示输出函数，σ表示激活函数sigmoid函数，

表示第j个句子中第i-1个词向量的隐藏层状态向量，即上层单元的输出，

表示第j个句子中第i个词向量也是当前的单元输入，

是当前单元的待更新状态，tanh表示激活函数用来生成待更新状态

W,W_c均表示权重矩阵，b，b_c均表示偏置值；

表示当前单元状态，通过上层单元的状态

输入函数

遗忘函数f_i ^j以及待更新状态

计算得到；

表示第j个句子中的第i个词的隐藏层状态向量，通过输出函数

和当前单元状态

计算得到；

Step4.3、获取句子级的事实描述文本特征向量表示：通过将Step4.3获取的隐藏层状态向量集

进行平均池化处理mean-pooling得到事实描述文本第j个句子的特征向量表示

分别对事实描述文本中的每个句子进行特征提取，最终得到句子级的事实描述文本特征向量表示为：

进一步地，所述步骤Step5的具体步骤为：

Step5.1、获取初级胶囊：初级胶囊能看作与句子数量m相同的m个特征叠加的特征图，每个初级胶囊元素代表的均是底层特征的一部分,假设c_j∈R^t是一个初级胶囊的实例参数，t是胶囊的维数，K是初级胶囊层的胶囊数量,设W^b∈R^m*t是滑动窗口的共享权重，对每一个矩阵都有一个

与之对应并生成相应的胶囊，每个胶囊的生成公式为：

其中g是非线性压缩函数，W^b是共享权重矩阵，b_j表示的是偏置值，

是事实描述文本第j个句子的特征向量表示,并且K既是初级胶囊层的数量也是过滤器的数量，则初级胶囊层得到的初级胶囊为：

C＝{c₁,c₂,…c_j…c_K} (7)

Step5.2、获取预测胶囊：假设初级胶囊层的p*k的区域连接到预测层，p*k为设定的每次传入的数据规模，权重矩阵为W^p∈R^p*k*d*t，其中，d表示词向量维度，假定

表示从初级胶囊得到的预测胶囊，其预测胶囊生成公式为：

其中，u_j表示初级胶囊层传递的p*k的初级胶囊，

表示偏置矩阵，通过计算最后得到预测胶囊；

Step5.3、动态路由的基本思想是以迭代的方式构造一个非线性映射，确保将每个预测胶囊的输出发送给后续的类别胶囊：

对于每一个潜在的类别胶囊，胶囊网络能通过动态路由来增加或降低连接强度，从本质上检测一个特征是否存在于事实描述文本中；

假定迭代次数r，给出每个预测向量

和其存在的概率

初始值

对连接强度

的迭代耦合系数进行更新的公式为：

其中

为耦合系数的对数，每个类别胶囊

都是所有预测向量

的加权求和：

其中

是类别胶囊的存在概率，g是非线性压缩函数，一旦所有的类别胶囊产生，将对

进行更新：

迭代r次后，得到最终的罪名类别胶囊v_p和其概率值α_p；

为了方便表示，将预测层胶囊到类别胶囊及其存在的类别概率的计算定义为：

其中

表示所有预测胶囊的集合，v,a分别表示类别胶囊的向量集合与其存在概率。

进一步地，所述步骤Step6的具体步骤为：

Step6.1、获取类别胶囊及其概率，通过Step5获取最终生成的类别胶囊v＝{v₁,v₂,...,v_N},v_p∈R^d以及每个罪名的类别概率值的集合α＝{α₁,α₂,...,α_N},α_p∈R，其中N是实验数据中罪名数量加上一个孤立的罪名；

Step6.2、依据时序特征值对罪名预测进行判断，时序特征值T＝1时，按照阈值γ对罪名进行预测，当T≠1时，首先对概率值进行排序，取前T个概率为待选罪名α_T，然后计算类别概率平均值

如果前T个罪名概率值大于

则为正，否则判断为负，计算公式如下：

其中α是代表每个罪名的类别概率值的集合，ε表示的是阶跃函数。

本发明的有益效果是：

1、本发明实现了利用胶囊网络对刑事案件进行罪名预测，可同时进行多罪名与单罪名的预测问题，解决了多罪名的低频数据的预测问题以及通过时序特征对多罪名进行预测；

2、针对罪名预测任务问题上，本发明在单罪名预测上的性能相对于一般的神经网络的在F值上提升了0.5％，在多罪名预测上的性能相对于一般的神经网络提升了8.5％。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的多罪名预测的建模流程图。

具体实施方式

实施例1：如图1-2所示，基于胶囊网络与时序的刑事多罪名预测方法，包括如下步骤：

Step1、数据的收集：获取罪名与事实描述文本相对应的数据集；具体的，可以通过Scrapy框架构建爬虫程序，自动爬取裁判文书网等网站中的法律文书，进行人工校正构建罪名与事实描述文本相对应的数据集；

Step2、数据的预处理：将得到的数据集对其中每一个罪名标签进行清理，且区分出单罪名与多罪名数据，然后按照one-hot的方式对罪名进行编码，同时删除空文档数据，构建出单罪名数据集与多罪名数据集，建立训练集、测试集与验证集，并对整个数据语料进行词向量训练，将词向量进行映射；数据处理：在数据预处理阶段考虑到多罪名数据对罪名预测的影响，在构建单罪名的训练数据集的同时构建了多罪名训练数据集，分析胶囊网络中单罪名对多罪名预测的影响；

Step3、提取时序特征：利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征，按照提取的时序特征数量对事实描述文本进行时序特征标签赋值；所述步骤Step3中：依据文本中的时序特点构建时序特征提取规则，如xxxx年xx月xx日为一个时序特征抽取规则，xx月xx日、xx月、xx日等为时间节点，如果时间节点与标准时间节点的差值小于7天的视为同一节点，每出现一个时间节点视为一个时序特征，时序特征值加1，时序特征值用T表示；

进一步地，所述步骤Step1的具体步骤为：

进一步地，所述步骤Step2的具体步骤：

Step2.1、对得到的数据集中每一个罪名标签进行清理，除去杂余信息如被告人名、犯案地点等；然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据，同时将罪名按照one-hot的方式进行编码，例如盗窃罪-1、危险驾驶6，盗窃、危险驾驶罪-[0,1,0,0,0,0,1...]，同时删除空文档数据；

Step2.2、对处理好的数据集进行切分，构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集；数据规模如表1所示:

表1数据集的分布

进一步地，所述步骤Step4的具体步骤为：

其中s_j表示事实描述文本中的第j个句子的词向量集，

其中

其中

是门控函数通过当前输入

和上层单元输出

计算得到，

表示输入函数，f_i ^j表示遗忘函数，

表示输出函数，σ表示激活函数sigmoid函数，

表示第j个句子中第i个词向量也是当前的单元输入，

W,W_c均表示权重矩阵，b，b_c均表示偏置值；

表示当前单元状态，通过上层单元的状态

输入函数

遗忘函数f_i ^j以及待更新状态

计算得到；

和当前单元状态

计算得到；

进一步地，所述步骤Step5的具体步骤为：

与之对应并生成相应的胶囊，每个胶囊的生成公式为：

C＝{c₁,c₂,…c_j…c_K} (7)

表示从初级胶囊得到的预测胶囊，其预测胶囊生成公式为：

其中，u_j表示初级胶囊层传递的p*k的初级胶囊，

表示偏置矩阵，通过计算最后得到预测胶囊；

假定迭代次数r，给出每个预测向量

和其存在的概率

初始值

对连接强度

的迭代耦合系数进行更新的公式为：

其中

为耦合系数的对数，每个类别胶囊

都是所有预测向量

的加权求和：

其中

进行更新：

迭代r次后，得到最终的罪名类别胶囊v_p和其概率值α_p；

其中

进一步地，所述步骤Step6的具体步骤为：

如果前T个罪名概率值大于

则为正，否则判断为负，计算公式如下：

为了验证本文中的方法是有效的，本发明设置了两组对比实验，一组是单罪名数据集，一组是多罪名数据集；在模型对比实验中分别设置了传统的统计机器学习和经典深度学习的模型进行对比：其中传统的统计机器学习方法使用词频-逆文档频率算法(TF-IDF)构建特征词典，将支持向量机SVM作为分类器。经典的深度学习基线模型有CNN、CRNN、Bi-GRU和Capsule，其中CNN使用word2vec训练词向量，并将CNN作为分类器进行分类；CRNN模型，首先利用CNN进行文本的特征提取，然后将特征向量作为RNN分类器的输入进行分类。利用Bi-GRU对文本进行编码，得到特征向量后用softmax进行预测。评估标准使用precision，recall，F₁值来衡量模型的准确性。

表2 Criminal-S上的实验结果

Metrics	P	R	F
				SVM	85.2	40.8	52.3
Bi-GRU	90.6	41.7	54.4
				CNN	91.3	43.3	58.7
CRNN	93.1	44.2	59.9
				Capsule	93.6	45.2	60.0
Our model	94.1	49.2	60.5

表2的数据说明，与一般的罪名预测模型相比，本模型在单罪名的数据上仍然保持着良好的性能，1)与一般的神经网络模型相比，如CRNN模型，F值提升了0.6％，该现象说明了本发明的模型相对于一般模型的准确性更高，2)与Capsule模型相比，F值提升了0.5％，可以看出单罪名预测任务中，句级特征提取与时序特征对模型的影响并不突出。

表3 Mutil-Criminal上的实验结果

表3的实验数据表明，1)在低频的多罪名实验数据当中，一般的神经网络模型表现出来的性能很差，本发明的胶囊模型在一定程度上解决了多罪名的低频问题；2)在与Capsule的F值相比较，本发明的模型提升了8.5％，说明了句子特征的提取与时序特征的应用在性能上有很大的提升。

通过以上的实验数据和分析，该方法更新了特征的提取方式，融入到胶囊网络中，并使用时序特征指导罪名预测。实验结果表明，针对刑事案件多罪名预测任务，胶囊网络有效的提升了低频数据的预测性能，同时时序特征对预测准确率有重要的指导作用。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。