CN111582576B

CN111582576B - 一种基于多尺度特征融合和门控单元的预测系统及方法

Info

Publication number: CN111582576B
Application number: CN202010373496.2A
Authority: CN
Inventors: 饶元; 李薛; 王婉臻; 吴连伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2022-08-16
Anticipated expiration: 2040-05-06
Also published as: CN111582576A

Abstract

本发明公开了一种基于多尺度特征融合和门控单元的预测系统及方法，通过案情描述、法律条文信息、法条名称信息进行有组织的多尺度嵌入和特殊的门控单元，克服了现有技术在法律判决预测中针对案情描述信息分析的缺点与不足。本发明可以有效的将多项预测内容进行巧妙的结合，只需要明确预测内容的拓扑顺序，同时取出每一步的预测结果与预测依据信息，增强了司法领域的可解释性；本发明使用的属性提取功能在排除噪声的同时，有效的提升犯罪特征预测性能和泛用性，使其可以更好地标注出案情描述中的关键点。

Description

一种基于多尺度特征融合和门控单元的预测系统及方法

【技术领域】

本发明属于辅助判决预测技术领域，涉及一种基于多尺度特征融合和门控单元的预测系统及方法。

【背景技术】

目前，司法工作者的工作量巨大。事实上，一名司法工作者审结一起案件要查阅大量的相关材料，需要在长期的工作经验积累下，经过深思熟虑之后，并在短时间内要完成书写最终的判决书等文本任务。这对于司法工作者来说，无论是职业能力，还是身体素质，都受到极大的挑战。如果应用基于深度学习的人工智能方法来处理、解决这些案件，则可以节省大部分人力和物力，极大地提高了其工作效率并减轻了压力。相关研究表明，智能应用可以减少30％以上的办公桌工作。在实际调研中发现司法工作者使用的统一判案平台对于法律文书和案卷仅有人工填写和批注功能，缺乏对于案件内容的智能化关键信息提取和智能化分析。这表示人工智能在司法领域中的应用还远远不足。

目前的法律判决预测方法主要有以下三种：一是端到端模型，直接将案情描述输入，通过深度学习模型可以直接预测出罪名、法条等。但是，这种方法没有对原始的文本内容进行分类输入，导致输入信息间产生混淆；同时忽略了不同罪名的固有特征，也容易造成混淆罪名。二是全自动化的判决预测模型，直接利用无监督的机器学习方法从案情描述抽取额外信息。这种方法无法判断抽取信息是否对判决预测有用，并且实际情况下利用无监督方法抽取的信息无法提取出共同特征，而且不具有规律性。其中，本文描述中包含的一些无关的形容词，会造成噪声问题；三是多模型融合方法，例如将深度学习与传统的隐马尔可夫模型进行融合的，或者将多个深度学习模型进行融合。这种方法可以有效的解决原始案情信息表达不充分的问题。但是，所提取的特征由于完全来自于原始的案情描述，无法进行额外的信息补充或者人工纠正，导致其初始的信息质量对最终的预测结果影响较大。综上，现有模型没有兼顾到司法领域中所需要的审判过程的可解释性以及自然语言处理领域对性能要求的准确性的结合。但是对于司法领域来说，尽管每一个案例都存在显著的差异，但其中却存在着一些共性的特征。

【发明内容】

本发明的目的在于解决现有技术中的问题，提供一种基于多尺度特征融合和门控单元的预测系统及方法，通过利用多维特征、多任务关联网络以及特殊的门控单元联合，实现了法条、罪名、刑期等法律判决的联合预测方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于多尺度特征融合和门控单元的预测系统，包括：

案情描述与特征编码模块，用于采用双重注意力网络对案情描述进行编码，通过句编码到文章编码递进处理长文本，并使用BERT-Text-CNN属性预测器对属性信息进行属性预测；

多标签法条预测模块，用于对所有标签进行得分计算，再通过设定阈值表示对最后留下的法条内容进行法条预测；

多标签罪名预测模块，用于将案情描述和法条内容的信息进行建模对应，最终将法条标签、含有注意力信息的案情描述和属性同时融入模型，进行多标签罪名的预测；

刑期预测模块，用于通过设定的门控机制对法条进行过滤，再结合犯罪事实内容进行最终刑期的决定。

本发明还公开了一种基于多尺度特征融合和门控单元的预测方法，包括以下步骤：

阶段0：数据预处理与标记

步骤0：将案情描述数据利用分词工具将句子分解为单词序列，并给出每条案情描述所对应的法条、罪名、刑期标签；

步骤1：对于民法中的多任务判决预测任务定义如下：假设一个案情描述L 是由一个单词序列所构成，即L＝{x,x₁,...,x_n}，其中每个单词x_i来自一个固定词汇 W，且n表示x的长度；对于每个案情描述L，得到其属性集为A＝{a₁,a₂,...,a₁₀}，其中a_i表示第i个属性的值，且a_i∈{0,1}；

阶段1：案情描述与犯罪特征嵌入

步骤2：对于包含n个词语的案情描述L＝{x₁,x₂,…,x_n}，每个词语均被表示为向量W_i；

x_i＝W^wrdVⁱ (1)

其中，

是由Word2vec训练得到的向量矩阵，d_w是词向量的维度， |V|是词典的大小，V_i是输入词语的词袋表示，R是实数范围；

步骤3：使用双向GRU网络对每个句子顺向和逆向都输入一遍，得到两个不同的隐藏层表示，然后将顺向、逆向的在每一个t时刻的隐藏层表示向量进行拼接表示；

步骤4：将双向GRU的前向隐藏层和后向隐藏层乘以注意权矩阵，并利用 softmax得到最有效的特征输出表示，且词级输出S^w由下式计算：

u_ij＝tanh(W_wh_ij+b_w) (2)

S^w＝∑_jα_ijh_ij (4)

其中u_ij表示目标矩阵，i，j表示向量维度，tanh表示激活函数，h_ij表示词级隐藏层分量，α_ij表示词级注意力分量，

表示目标矩阵转置，T为转置标记， W_w和b_w表示权重矩阵和偏差，c_w表示随机初始化矩阵；

步骤5：对于双向GRU而言，假设前向得到的隐藏层表示为H^f，后向得到的隐藏层表示为H^b；需要将前向和后向结果进行拼接操作；之后再次输入到双向 GRU中，得到隐藏层输出

其中，

表示包含词级注意力的隐层表示；

步骤6：使用句子层注意力机制从句子集中提取特征，句子集的输出S^s由以下列公式进行计算：

u_i＝tanh(W_sh_i+b_s) (6)

S^s＝∑_iα_ih_i (8)

其中，W_s和b_s表示权重矩阵和偏差，h_i表示句子级隐层分量，α_i表示句子级注意力分量，

表示目标矩阵转置，c_s为随机初始化矩阵，α_s表示注意力权重矩阵，将S^s作为案情描述的目标嵌入矩阵；

步骤7：将句子的矩阵表示输入到BERT预训练模型中，进行参数微调，得到BERT的token-level输出作为编码输入，使用BERT的句子表示矩阵输出；之后、进行卷积操作，并利用多尺度卷积核提取出相邻词的联合信息和语义；对于句子矩阵A∈R^s×d，使用A[i:j]表示第i行到第j行的子矩阵；在卷积子矩阵上反复应用卷积核得到卷积的输出序列o∈R^s ^-h+1；

o(i)＝w*A[i:i+h-1] (9)

其中，i＝1...s-h+1，*表示乘法运算；w表示权重矩阵；对于每个卷积结果表示为：

C(i)＝f(o(i)) (10)

选取大小为3、4、5的卷积核，得到不同感受野的数据；将处理后的结果连接起来后，加入全连接层，使两层网络间所有神经元之间都有权重连接，用于预测最终的类别；最后得到输出层结果，使用Softmax生成最终的分类结果；将属性进行维度为d_w的嵌入处理，形成属性嵌入矩阵S^Attr，并将案情描述嵌入更新为：

其中，β为调节参数，d_w为向量维度；并将S^Fcat作为最终的输入层表示；

阶段2：法条预测

步骤8：应用Softmax函数计算每一篇案件描述文本的分数，首先对S^Fcat接入全连接层之后，采用Max-pooling操作，计算方法如下：

且

其中m表示预测的法条数；从而得到最终结果为：

其中，W^a和b^a代表权重矩阵和偏置；同时，；

步骤9：对于法条预测，根据Sigmoid结果，得到最终的预测结果集 P_a＝[P_a1,P_a2,...,P_aK]；其中P_aK∈[0,1]；K表示法律条文总数；对于给定阈值τ_a，取得分高于阈值的法条信息进行保留，得到最终的预测结果集

其中 k≤K；利用交叉熵计算损失，表示为：

其中r_ak和P_ak分别是法条K的事实标签和预测标签，用0、1表示；

阶段3：罪名预测

步骤10：对于案情描述对应的预测法条进行搜索，保留所有预测法条，并找到预测法条的对应内容，首先对被选择的法条信息进行多核卷积神经网络结构编码，得到结果为；

其中，S^Art表示多个法条对应的嵌入集合，

表示第i个法条的嵌入；利用事实表示序列S^Fact和法条信息表示序列S^Art，使用联合信息辅助实现对最终罪名的预测任务；因此，本发明采用了一种法条注意力机制来关注输入案情描述中的差异部分，然后通过加权和案情事实表示进行罪名预测；

步骤11：法条注意力可以描述为将查询和一组键值对映射到输出；因此，使用S^Fact和S^Art计算键向量和查询向量，如下所示：

其中，

表示权重矩阵，d_att为K向量和Q向量的维数；案情描述的单一注意力矩阵计算方法如下：

将对每个法律条文的注意力分量取最大值，再对所有法律条文的注意力矩阵取均值，如下所示：

步骤12：将法条名称按照one-hot的形式编码，得到结果为：

之后进行联合预测最终的罪名：

其中，γ为可选参数，为了保持分步均匀；最终将S^FL接入全连接层，进行 softmax计算，并且每一项的得分仍用Sigmoid来表示：

其中，W^c和b^c表示权重矩阵和偏置量；设定阈值来选择相应的罪名是否加入结果集；

步骤13：对于罪名预测，根据Sigmoid结果，得到最终的预测结果集 P_c＝[P_c1,P_c2,...,P_cK]；其中，P_cK∈[0,1]；K表示罪名总数；对于给定阈值τ_c，将得分高于阈值的罪名信息进行保留，得到最终的预测结果集

其中 k≤K；利用交叉熵计算损失，表示为：

其中，r_ck和P_ck分别是罪名K的事实标签和预测标签，用0、1表示；

阶段4：刑期预测

步骤14：刑期的分类总体可以分为三类：有期徒刑、无期徒刑和死刑；根据刑期的分布特征，将刑期划分为不同区间；

步骤15：对于法律条文内容进行双向LSTM编码，之后将法条名称也进行编码，对于每个门控环节利用Sigmoid函数计算出需要进入的信息量，如下式：

其中，S^Law表示法条名称嵌入，

表示LSTM中的细胞状态，

表示通过门控单元进入的信息量；W^(l)和b^(l)表示参数矩阵和偏置；之后利用CNN对输出结果进行卷积，接入max-pooling层；得到最后的结果集合为

其中，

表示预测的第i条法律内容经过上述结构得到的结果；

步骤16：将此结果与之前得到的特征集合再次进行连接，得到结过如下：

其中，δ代表可调节参数，用来使数据分布统一；对所得到的结果进行全连接后利用softmax函数直接进行分类；

步骤17：对于刑期预测，则根据softmax结果，得到最终的预测结果集 P_t＝[P_t1,P_t2,...,P_tK]；其中，P_tK∈[0,1]；K表示刑期总数；保留最大项作为最终刑期，损失采用交叉熵：

其中，r_at和P_at分别是法条K的事实标签和预测标签，用0、1表示。

本发明进一步的改进在于：

所述步骤3中，对每个句子顺向为从句子中第一个词向最后一个词递归；对每个句子逆向为从句子中最后一个词向第一个词递归。

所述步骤8中在预测过程中，只选择得分高于阈值的文本作为真正相关的描述文本。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种基于多尺度特征融合和门控单元的法律判决预测方法，通过案情描述、法律条文信息、法条名称信息进行有组织的多尺度嵌入和特殊的门控单元，克服了现有技术在法律判决预测中针对案情描述信息分析的缺点与不足。

进一步的，本发明可以有效的将多项预测内容进行巧妙的结合，只需要明确预测内容的拓扑顺序，同时取出每一步的预测结果与预测依据信息，增强了司法领域的可解释性；

进一步的，本发明对于结构中多尺度信息的融入时机进行和很好的阐释，例如法条对于预测罪名预测而言，更需要的是符合法条名称的信息，而对于刑期预测而言，更需要法条中的具体内容，尤其是关于量刑区间或其他判决内容的规定信息；

进一步的，本发明具有可拆解性，可将各个部件用于不同的任务中，针对不同的一项或多项任务进行不同的形态组合。使其具有极强的泛化能力和拓展能力；

进一步的，本发明使用的属性提取功能在排除噪声的同时，有效的提升犯罪特征预测性能和泛用性，使其可以更好地标注出案情描述中的关键点。

【附图说明】

图1为本发明的架构图；

图2为本发明中使用的BERT单句输入格式；

图3为本发明中使用的BERT-Text-CNN属性预测器；

图4为本发明中罪名区间示意图；

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和 “具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明基于多尺度特征融合和门控单元的法律判决预测方法，通过利用多维特征、多任务关联网络以及特殊的门控单元联合，实现了法条、罪名、刑期等法律判决的联合预测方法。本发明包括四主要个模块，具体如下：

模块1.案情描述与特征编码模块：由于完整的案情描述是典型的长文本，长度普遍达到上千字。普通的LSTM或GRU会导致长文本语义丢失，故采用双重注意力网络对案情描述进行编码，通过句编码到文章编码递进处理长文本问题，属性信息使用BERT-Text-CNN属性预测器进行属性预测。

模块2.多标签法条预测模块：要针对多标签问题，对所有标签进行得分计算，再通过设定阈值表示对最后留下的法条内容进行法条预测。

模块3.多标签罪名预测模块：为了成功识别出案情描述中存在的多项罪名，利用注意力机制，将案情描述和法条内容的信息进行建模对应，最终将法条标签、含有注意力信息的案情描述和属性同时融入模型，进行多标签罪名的预测。

模块4.刑期预测模块：需要设定特殊的门控机制，刑期的判定必须要遵循相关法条的规定，通过设定的门控机制对法条进行过滤，再结合犯罪事实内容进行最终刑期的决定，刑期是单标签分类。

如图1所示，本发明基于多尺度特征融合和门控单元的法律判决预测方法，包括以下步骤：

阶段0：数据预处理与标记

步骤1：对于民法中的多任务判决预测任务定义如下：假设一个案情描述L 是由一个单词序列所构成，即L＝{x,x₁,...,x_n}，其中每个单词x_i来自一个固定词汇 W，且n表示x的长度。对于每个案情描述L，可以得到其属性集为A＝{a₁,a₂,...,a₁₀}，其中a_i表示第i个属性的值，且a_i∈{0,1}。基于事实描述L，多任务判决预测T的任务旨在：预测适用法律条款、罪名、刑期判决结果。形式上，假设T包含T个子任务，即T＝{t₁,t₂,...,t_|T|}，且第i个子任务t_i∈T，而每个子任务t_i都是一个分类任务，则预测结果为：y_i∈Y，其中y_i是子任务特定的标签集。以罪名预测子任务为例，对应的标签集包括：盗窃、故意伤害罪、故意杀人罪等不同的罪名。

阶段1：案情描述与犯罪特征嵌入

步骤2：为了捕捉案情描述的句法和语义信息，需要将输入句子中的词语映射为词向量。对于包含n个词语的案情描述L＝{x₁,x₂,…,x_n}，其中每个词语均被表示为向量W_i。

x_i＝W^wrdVⁱ (1)

其中，

是由Word2vec训练得到的向量矩阵，d_w是词向量的维度， |V|是词典的大小，V_i是输入词语的词袋表示。

步骤3：使用双向GRU网络对每个句子顺向(从句子中第一个词向最后一个词递归)和逆向(从句子中最后一个词向第一个词递归)都输入一遍，得到两个不同的隐藏层表示，然后将顺向、逆向的在每一个t时刻的隐藏层表示向量进行拼接表示。

步骤4：词级注意力层。将双向GRU的前向隐藏层和后向隐藏层乘以注意权矩阵，并利用softmax得到最有效的特征输出表示，且输出S^w由下式计算：

u_ij＝tanh(W_wh_ij+b_w) (2)

S^w＝∑_jα_ijh_ij (4)

其中，

是由Bi-GRU层产生的向量[h₁,h₂,…,h_n]组成的输入矩阵，d_w是向量的维度。W_w和b_w表示训练参数，并且b_w是偏差。c_w为随机初始化矩阵。

步骤5：对于双向GRU而言，假设前向得到的隐藏层表示为H^f，后向得到的隐藏层表示为H^b。需要将前向和后向结果进行拼接操作。之后再次输入到双向 GRU中，得到隐藏层输出。

步骤6：句子级注意力层。使用句子层注意力机制从句子集中提取特征。与前一层字级别注意力相似，句子集的输出S^s可由以下列公式进行计算：

u_i＝tanh(W_sh_i+b_s) (6)

S^s＝∑_iα_ih_i (8)

其中，

(m是集合中句子的数量)由来自上一层的输出 {h₁,h₂,[h₁,h₂,...,h_n],...,h_m}形成，W_s和b_s是训练参数，并且b_s表示偏差，c_s为随机初始化矩阵，α_s表示注意力权重矩阵，S^s即表示案情描述L最后的嵌入矩阵。

步骤7：将句子的矩阵表示输入到BERT预训练模型中，进行参数微调。输入方式如图2所示。得到BERT的token-level输出作为编码输入，使用BERT的句子表示矩阵输出。之后通过卷积核进行卷积，并利用多尺度卷积核提取出相邻词的联合信息和语义，具体结构如图3所示。假设有一个参数化卷积核权矩阵w，其大小为g，w需要训练h×d个参数。而对于句子矩阵A∈R^s×d，使用A[i:j]表示第 i行到第j行的子矩阵。在卷积子矩阵上反复应用卷积核得到卷积的输出序列 o∈R^s-h+1。

o(i)＝w*A[i:i+h-1] (9)

其中，i＝1...s-h+1，*表示乘法运算。w表示权重矩阵。对于每个卷积结果可表示为：

C(i)＝f(o(i)) (10)

对同一区域使用多个卷积核来提取互补特征，加入最大池化提取最关键部分，并减少计算量。选取大小为3、4、5的卷积核，得到不同感受野的数据。将处理后的结果连接起来后，加入全连接层，使两层网络间所有神经元之间都有权重连接，用于预测最终的类别。最后得到输出层结果，使用Softmax生成最终的分类结果。将属性进行维度为d_w的简单嵌入处理，形成属性嵌入矩阵S^Attr，并将案情描述嵌入更新为：

S^Fact＝S^s⊕βS^Attr (11)

其中，β为调节参数，d_w为向量维度。并将S^Fcat作为最终的输入层表示。

阶段2：法条预测

步骤8：为每一篇案件描述文本训练一个分类器是非常耗时的，而且由于文本数量庞大，很难进行全面概括。因此，应用Softmax函数来计算每一篇案件描述文本的分数。首先对S^Fcat接入全连接层之后，进一步采用Max-pooling操作，计算方法如下：

且

其中m表示预测的法条数。从而得到最终结果为：

其中，W^a和b^a代表权重矩阵和偏置。为了防止无关文本引入不必要的噪声，在训练环节提供了真实的相关文本标签。同时，在预测过程中，只选择得分高于阈值的文本作为真正相关的描述文本。

步骤9：对于法条预测，根据Sigmoid结果，得到最终的预测结果集 P_a＝[P_a1,P_a2,...,P_aK]。其中P_aK∈[0,1]。K表示法律条文总数。对于给定阈值τ_a，取得分高于阈值的法条信息进行保留，得到最终的预测结果集

其中 k≤K。利用交叉熵计算损失，表示为：

其中r_ak和P_ak分别是法条K的事实标签和预测标签，用0、1表示。

阶段3：罪名预测

步骤10：对于案情描述对应的预测法条进行搜索，保留所有预测法条，并找到预测法条的对应内容，首先对被选择的法条信息进行多核卷积神经网络结构编码，得到结果为。

其中，S^Art表示多个法条对应的嵌入集合，

表示第i个法条的嵌入。利用事实表示序列S^Fact和法条信息表示序列S^Art，使用联合信息辅助实现对最终罪名的预测任务。因此，本发明采用了一种法条注意力机制来关注输入案情描述中的差异部分，然后通过加权和案情事实表示进行罪名预测。

步骤11：法条注意力可以描述为将查询和一组键值对映射到输出。因此，使用S^Fact和S^Art计算键向量和查询向量，如下所示：

其中，

表示权重矩阵，d_att为K向量和Q向量的维数。案情描述的单一注意力矩阵计算方法如下：

由于需要计算对于多个法律条文的注意力矩阵，将对每个法律条文的注意力分量取最大值，再对所有法律条文的注意力矩阵取均值，如下所示：

其中，括号外侧的average仅计算一次，计算最大值与预测出法条数量有关，括号内的max需要计算注意力每个案情描述包含的注意力分量数目，且average 和max的计算与最大值和以及分量最大维度有关。

步骤12：考虑到案情描述和法条名称的双重影响，本发明将法条名称按照 one-hot的形式编码，得到结果为：

之后进行联合预测最终的罪名：

其中γ为可选参数，为了保持分步均匀。最终将S^FL接入全连接层，进行softmax 计算，并且每一项的得分仍用Sigmoid来表示：

其中，W^c和b^c表示权重矩阵和偏置量。同样，设定阈值来选择相应的罪名是否加入结果集。

步骤13：对于罪名预测，根据Sigmoid结果，得到最终的预测结果集 P_c＝[P_c1,P_c2,...,P_cK]。其中，P_cK∈[0,1]。K表示罪名总数。对于给定阈值τ_c，将得分高于阈值的罪名信息进行保留，得到最终的预测结果集

其中 k≤K。利用交叉熵计算损失，表示为：

其中，r_ck和P_ck分别是罪名K的事实标签和预测标签，用0、1表示。

阶段4：刑期预测

步骤14：刑期的分类总体可以分为三类：有期徒刑、无期徒刑和死刑。根据刑期的分布特征，将刑期划分为不同区间进行考虑。具体划分如图3所示。

步骤15：首先对于法律条文内容进行双向LSTM编码，之后将法条名称也进行编码，对于每个门控环节首先利用Sigmoid函数计算出需要进入的信息量，如下式：

其中，S^Law表示法条名称嵌入，

表示LSTM中的细胞状态，

表示通过门控单元进入的信息量。W^(l)和b^(l)表示参数矩阵和偏置。之后利用CNN对输出结果进行卷积，接入max-pooling层。得到最后的结果集合为

其中，

表示预测的第i条法律内容经过上述结构得到的结果。

其中，δ代表可调节参数，用来使数据分布统一。对所得到的结果进行全连接后利用softmax函数直接进行分类。

步骤17：对于刑期预测，则根据softmax结果，得到最终的预测结果集 P_t＝[P_t1,P_t2,...,P_tK]。其中，P_tK∈[0,1]。K表示刑期总数。保留最大项作为最终刑期，损失采用交叉熵：

本发明适用于司法领域，尤其是将人工智能融入法律判决预测工作中，能够准确、分步式的根据给定的案情描述给出具有较强可解释性的法条、罪名、刑期的预测结果。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于多尺度特征融合和门控单元的预测方法，所述方法基于一种基于多尺度特征融合和门控单元的预测系统，所述系统包括：

刑期预测模块，用于通过设定的门控机制对法条进行过滤，再结合犯罪事实内容进行最终刑期的决定；

其特征在于，所述方法包括以下步骤：

阶段0：数据预处理与标记

步骤1：对于民法中的多任务判决预测任务定义如下：假设一个案情描述L是由一个单词序列所构成，即L＝{x,x₁,...,x_n}，其中每个单词x_i来自一个固定词汇W，且n表示x的长度；对于每个案情描述L，得到其属性集为A＝{a₁,a₂,...,a₁₀}，其中a_i表示第i个属性的值，且a_i∈{0,1}；

阶段1：案情描述与犯罪特征嵌入

步骤2：对于包含n个词语的案情描述L＝{x₁,x₂,...,x_n}，每个词语均被表示为向量W_i；

x_i＝W^wrdVⁱ (1)

其中，

是由Word2vec训练得到的向量矩阵，d_w是词向量的维度，|V|是词典的大小，Vⁱ是输入词语的词袋表示，R是实数范围；

步骤4：将双向GRU的前向隐藏层和后向隐藏层乘以注意权矩阵，并利用softmax得到最有效的特征输出表示，且词级输出S^w由下式计算：

u_ij＝tanh(W_wh_ij+b_w) (2)

S^w＝∑_jα_ijh_ij (4)

其中u_ij表示目标矩阵，i，j表示向量维度，tan h表示激活函数，h_ij表示词级隐藏层分量，α_ij表示词级注意力分量，

表示目标矩阵转置，T为转置标记，W_w和b_w表示权重矩阵和偏差，c_w表示随机初始化矩阵；

步骤5：对于双向GRU而言，假设前向得到的隐藏层表示为H^f，后向得到的隐藏层表示为H^b；需要将前向和后向结果进行拼接操作；之后再次输入到双向GRU中，得到隐藏层输出

其中，

表示包含词级注意力的隐藏层表示；

u_i＝tanh(W_sh_i+b_s) (6)

S^s＝∑_iα_ih_i (8)

其中，W_s和b_s表示权重矩阵和偏差，h_i表示句子级隐藏层分量，α_i表示句子级注意力分量，

步骤7：将句子的矩阵表示输入到BERT预训练模型中，进行参数微调，得到BERT的token-level输出作为编码输入，使用BERT的句子表示矩阵输出；之后、进行卷积操作，并利用多尺度卷积核提取出相邻词的联合信息和语义；对于句子矩阵A∈R^s×d，使用A[i:j]表示第i行到第j行的子矩阵；在卷积子矩阵上反复应用卷积核得到卷积的输出序列o∈R^s-h+1；

o(i)＝w*A[i:i+h-1] (9)

C(i)＝f(o(i)) (10)